每日精选AI研究论文及翻译
我们介绍了Seed-TTS,这是一系列大规模自回归文本到语音(TTS)模型,能够生成几乎无法区分的人类语音。Seed-TTS作为语音生成的基础模型,在语境学习中表现出色,实现了在说话者相似度和自然度方面与地面真实人类语音相匹配的性能,无论是客观评估还是主观评估。通过微调,我们在这些指标上实现了更高的主观评分。Seed-TTS在各种语音属性(如情感)上提供了优越的可控性,并能够为野外说话者生成高度表现力丰富和多样化的语音。此外,我们提出了一种用于语音因子分解的自蒸馏方法,以及一种增强模型鲁棒性、说话者相似度和可控性的强化学习方法。我们还提出了Seed-TTS模型的非自回归(NAR)变体,命名为Seed-TTS_DiT,它采用完全基于扩散的架构。与先前基于NAR的TTS系统不同,Seed-TTS_DiT不依赖于预估的音素持续时间,并通过端到端处理进行语音生成。我们展示了这个变体实现了与基于语言模型的变体相当的性能,并展示了它在语音编辑中的有效性。我们鼓励读者在https://bytedancespeech.github.io/seedtts_tech_report上听取演示。
我们探讨了大型语言模型(LLMs)中的不确定性量化,旨在确定在给定查询时响应的不确定性何时较大。我们同时考虑认知不确定性和随机不确定性,前者源于对基本事实(如事实或语言)的缺乏了解,后者源于不可减少的随机性(如多个可能的答案)。具体而言,我们推导了一种信息论度量标准,可以可靠地检测仅当认知不确定性较大时,模型的输出才是不可靠的。这种条件可以仅基于模型的输出计算,仅通过一些基于先前响应的特殊迭代提示获得。例如,这种量化可以检测出单个和多个答案响应中认知不确定性较高时的幻觉情况。这与许多标准不确定性量化策略形成对比(例如通过对响应的对数似然进行阈值处理),在多个答案情况下无法检测出幻觉。我们进行了一系列实验,证明了我们的公式的优势。此外,我们的研究揭示了大型语言模型分配给特定输出的概率如何通过迭代提示放大,这可能具有独立的研究意义。
在线和离线的RLHF方法,如PPO和DPO,在将人工智能与人类偏好对齐方面取得了极大成功。尽管它们取得了成功,但现有方法存在一个根本问题,即它们的最优解高度依赖任务(即对分布外(OOD)任务不具有鲁棒性)。在这里,我们通过提出自我改进鲁棒偏好优化SRPO来解决这一挑战,这是一个实用且在数学上合理的离线RLHF框架,完全能够适应任务的变化。SRPO的关键思想是将从人类偏好中学习的问题视为一个自我改进的过程,可以用一个旨在通过对抗方式联合优化自我改进策略和生成策略的极小极大目标来进行数学表达。这种优化问题的解决方案独立于训练任务,因此对其变化具有鲁棒性。然后,我们展示了这一目标可以重新表达为一种非对抗性的离线损失形式,可以在规模上使用标准监督优化技术进行优化,而无需奖励模型和在线推断。我们展示了SRPO在AI胜率(WR)对人类(GOLD)完成情况的效果。特别是,在OOD XSUM数据集上评估SRPO后,经过5次自我修订后,其胜率达到90%,比著名的DPO明显高出15%。
文本到视频生成在质量和多样性上落后于文本到图像合成,这是由于时空建模的复杂性和有限的视频文本数据集所致。本文提出了I4VGen,这是一个无需训练且即插即用的视频扩散推理框架,通过利用强大的图像技术来增强文本到视频的生成。具体而言,I4VGen将文本到视频生成分解为两个阶段:锚定图像合成和锚定图像引导的视频合成。相应地,采用了精心设计的生成-选择流程来实现视觉逼真且语义忠实的锚定图像,并结合了一种创新的噪声不变视频评分蒸馏采样,将图像转换为动态视频,随后进行视频再生过程以完善视频。这种推理策略有效地缓解了普遍存在的非零终端信噪比问题。广泛的评估表明,I4VGen不仅能够生成具有更高视觉逼真度和文本保真度的视频,还能够与现有的图像到视频扩散模型无缝集成,从而提高整体视频质量。
在生成图像的扩散模型中,主要关注的轴线是图像质量、结果中的变化量以及结果与给定条件(例如类标签或文本提示)的对齐程度。流行的无分类器指导方法使用无条件模型来指导有条件模型,从而同时实现更好的提示对齐和更高质量的图像,但会降低变化量。这些效果似乎固有地纠缠在一起,因此难以控制。我们发现令人惊讶的是,通过使用较小、训练较少的模型版本来引导生成,而不是无条件模型,可以实现对图像质量的解耦控制,而不会牺牲变化量。这导致在ImageNet生成方面取得了显著进展,使用公开可用的网络,为64x64的FID设置了1.01的记录,为512x512设置了1.25的记录。此外,该方法也适用于无条件扩散模型,大幅提升了它们的质量。
人工智能(AI)领域的最新进展在很大程度上是通过扩展来推动的。在机器人领域,扩展受到无法获取大规模机器人数据集的阻碍。我们主张使用逼真的物理模拟作为一种手段,来扩展机器人学习方法的环境、任务和数据集。我们提出了RoboCasa,一个用于在日常环境中训练通用机器人的大规模模拟框架。RoboCasa具有逼真且多样化的场景,重点放在厨房环境上。我们提供了超过150个物体类别和数十个可互动家具和电器的数千个3D资产。我们利用生成式人工智能工具丰富了模拟的逼真性和多样性,例如从文本到3D模型的物体资产和从文本到图像的环境纹理。我们设计了一套包括通过大型语言模型指导生成的复合任务在内的100个任务,用于系统评估。为了促进学习,我们提供高质量的人类演示,并整合自动轨迹生成方法,以最小化人力负担大幅扩展我们的数据集。我们的实验显示,使用合成生成的机器人数据进行大规模模仿学习存在明显的扩展趋势,并展示了在实际任务中利用模拟数据的巨大潜力。视频和开源代码可在https://robocasa.ai/ 上获得。
在肖像视频生成领域,利用单个图像生成肖像视频的做法日益普遍。一种常见的方法涉及利用生成模型增强适配器以进行受控生成。然而,控制信号(例如文本、音频、参考图像、姿势、深度图等)的强度可能不同。在这些信号中,较弱的条件通常由于受到较强条件的干扰而难以发挥作用,这在平衡这些条件方面构成了挑战。在我们关于肖像视频生成的研究中,我们发现音频信号特别薄弱,常常被面部姿势和参考图像等较强信号所掩盖。然而,直接使用弱信号进行训练通常会导致收敛困难。为了解决这个问题,我们提出了V-Express,这是一种通过渐进训练和条件丢弃操作平衡不同控制信号的简单方法。我们的方法逐渐使弱条件能够有效控制,从而实现同时考虑面部姿势、参考图像和音频的生成能力。实验结果表明,我们的方法能够有效生成由音频控制的肖像视频。此外,我们提供了一个潜在的解决方案,用于同时有效地利用不同强度条件。
最近,视频扩散模型作为表达丰富、高质量视频内容创作的生成工具崭露头角,普通用户可以轻松获得这些工具。然而,这些模型通常无法精确控制视频生成中的摄像机姿势,限制了电影语言和用户控制的表达。为解决这一问题,我们引入了CamCo,该模型允许对图像到视频生成进行细粒度的摄像机姿势控制。我们使用Pl\"ucker坐标为经过预训练的图像到视频生成器提供准确参数化的摄像机姿势输入。为增强生成视频的三维一致性,我们在每个注意力块中集成了一个极线注意力模块,强制执行特征图上的极线约束。此外,我们通过结构运动算法估算的摄像机姿势在真实世界视频上对CamCo进行微调,以更好地合成物体运动。我们的实验表明,与先前模型相比,CamCo显著提高了三维一致性和摄像机控制能力,同时有效地生成了可信的物体运动。项目页面:https://ir1d.github.io/CamCo/