原创 学术头条 学术头条
上周值得关注的人工智能新动态:
全球首位人工智能 DJ 诞生
来,AI 帮你创建动漫肖像
开发人员正在积极拥抱 AI 工具
零样本文本指导的视频到视频翻译
多模态语境下的指令微调
禁止纯 AI 生成的音乐参与格莱美提名
AI 生成的直播因不当言论被禁
meta 推出了 MusicGen 和 Voicebox
人声克隆将用于有声书籍
《黑镜》展现了当前 AI 的噩梦
OpenAI 和谷歌正尝试与媒体公司合作
全球首位人工智能 DJ 诞生
美国一家电台 KBFF Live 95.5 FM 通过使用 RadioGPT 软件,成为世界上首个推出由人工智能驱动的 DJ 电台,这为电台节目创作和内容推送带来了新的可能。
参考链接:
https://www.foxbusiness.com/technology/worlds-first-ai-dj-airwaves-oregon-radiogpt
来,AI 帮你创建动漫肖像
研究人员提出了 AniFaceDrawing,可以使用 StyleGAN 将粗糙的草图转换为高质量的动漫肖像。
论文链接:
https://arxiv.org/abs/2306.07476
开发人员正积极拥抱AI工具
Stack Overflow 的一项调查显示,44% 的开发人员已经在使用 AI 工具,另有 26% 的开发人员将很快会使用。
另外,77% 的开发人员对 AI 工具在其开发工作中扮演的角色感到满意;33% 的开发人员认为提高生产力是他们选择使用 AI 工具的最重要原因;42% 的开发人员表示,他们相信 AI 工具输出内容的准确性。
参考链接:
https://stackoverflow.co/labs/developer-sentiment-ai-ml/
零样本文本指导的视频到视频翻译
研究人员公布了一个新颖的零样本文本指导的视频到视频的翻译框架,适应图像模型以创建高质量的连贯视频。该框架以较低的成本(无需重新训练或优化)实现了全局风格和局部纹理的时间一致性,其适应性与现有的图像扩散技术兼容。
论文链接:
https://arxiv.org/abs/2306.07954
多模态语境下的指令微调
S-Lab和微软训练了一个精通多模态感知和推理的视觉语言模型——Otter,人工评估显示,Otter 在多模态感知、推理和语境学习方面展现出了惊人的能力,且可以有效地与用户的意图保持一致。
此外,他们也提出了一个用于训练视觉语言模型的大型数据集——MIMIC-IT,其包含280万个多模态指令-反应对,其中有220万个为图像和视频指令。