每日精选AI研究论文及翻译
零-shot 文本转语音旨在合成具有未见过语音提示的声音。先前的大规模多说话人 TTS 模型已成功在 10 秒内完成注册录音以实现此目标。然而,大多数模型仅设计用于利用短语音提示。短语音提示中的有限信息显著阻碍了精细身份模仿的性能。在本文中,我们介绍 Mega-TTS 2,这是一个通用的零-shot 多说话人 TTS 模型,能够使用任意长度的提示为未见过的说话人合成语音。具体来说,我们 1) 设计了一个多参考音色编码器,用于从多个参考语音中提取音色信息;2) 并训练了一个能够处理任意长度语音提示的韵律语言模型;通过这些设计,我们的模型适用于不同长度的提示,从而扩展了零-shot 文本转语音的语音质量上限。除了任意长度的提示,我们还引入了任意来源提示,利用从多个 P-LLM 输出中导出的概率来产生富有表现力和可控制的韵律。此外,我们提出了一个音素级自回归持续时间模型,将上下文学习能力引入到持续时间建模中。实验证明,我们的方法不仅能够合成保持身份的短提示未见说话人的语音,还能够在使用更长的语音提示时实现改进的性能。音频样本可在 https://mega-tts.github.io/mega2_demo/ 找到。
大型语言模型(LLMs)展示了它们能够学习上下文,使其能够根据少量输入-输出示例执行各种任务的能力。然而,上下文学习的有效性在很大程度上取决于所选示例的质量。在本文中,我们提出了一个新颖的框架,用于迭代训练密集检索器,该检索器能够识别LLMs的高质量上下文示例。我们的框架最初训练一个基于LLM反馈的奖励模型来评估候选示例的质量,然后进行知识蒸馏以训练基于双编码器的密集检索器。我们在30个任务套件上的实验表明,我们的框架显著提高了上下文学习性能。此外,我们展示了我们的框架对训练期间未见任务的泛化能力。深入分析显示,我们的模型通过检索具有相似模式的示例来提高性能,并且这种增益在不同大小的LLMs之间保持一致。
在这项工作中,我们介绍了一种自监督特征表示学习框架 DreamTeacher,该框架利用生成网络对下游图像主干进行预训练。我们提出从经过训练的生成模型中提炼知识,注入到经过良好设计用于特定感知任务的标准图像主干中。我们研究了两种类型的知识提炼:1) 将学习到的生成特征提炼到目标图像主干上,作为替代方案,而非对这些主干在大型标记数据集(如ImageNet)上进行预训练;2) 将从生成网络和任务头获得的标签提炼到目标主干的对数中。我们对多个生成模型、密集预测基准和几种预训练方案进行了广泛分析。我们经验性地发现,我们的 DreamTeacher 在各方面明显优于现有的自监督表示学习方法。使用 DreamTeacher 进行无监督的 ImageNet 预训练,相比于在下游数据集上进行 ImageNet 分类预训练,能够显著提升性能,展示了生成模型,尤其是扩散生成模型,作为在大型、多样化数据集上进行表示学习的一种有前途的方法,而无需手动注释。
我们解决了在场景中生成人与物体互动的逼真3D动作的问题。我们的关键思想是创建一个附加到特定物体的神经交互场,该场根据输入的人体姿势输出到有效交互流形的距离。这种交互场引导了基于物体条件的人体运动扩散模型的采样,以鼓励合理的接触和功能语义。为了支持与稀缺数据的互动,我们提出了一个自动化合成数据流水线。为此,我们使用从有限动作捕捉数据中提取的与交互特定的锚定姿势来为基础的预训练运动模型进行种子化。利用我们在生成的合成数据上训练的引导扩散模型,我们合成了关于坐姿和举起多个物体的逼真动作,优于其他方法在动作质量和成功动作完成方面。我们将我们的框架称为NIFTY:用于轨迹合成的神经交互场。