每日精选AI研究论文及翻译
近年来,大型语言模型(LLMs)在不同任务上取得了前所未有的性能,取得了巨大进展。然而,由于商业利益,像GPT、Gemini和Claude这样的最具竞争力的模型被封装在专有接口背后,没有披露训练细节。最近,许多机构已经开源了几个强大的LLMs,如LLaMA-3,与现有的闭源LLMs相媲美。然而,大多数细节(如中间检查点、预训练语料库和训练代码等)仍未披露,只提供了模型的权重。为了提高LLMs的透明度,研究界已经开始开源真正开放的LLMs(如Pythia、Amber、OLMo),提供了更多细节(如预训练语料库和训练代码)。这些模型极大地推动了对这些大型模型的科学研究,包括它们的优势、劣势、偏见和风险。然而,我们观察到,现有的真正开放的LLMs在推理、知识和编码任务上仍然不及现有同等模型大小的最先进LLMs。因此,我们开源了MAP-Neo,这是一个性能卓越且透明的双语语言模型,拥有70亿参数,从头开始在45万亿高质量标记上进行训练。我们的MAP-Neo是第一个完全开源的双语LLM,性能可与现有最先进的LLMs相媲美。此外,我们公开了所有细节以重现我们的MAP-Neo,提供了经过清理的预训练语料库、数据清洗流程、检查点以及经过良好优化的训练/评估框架。最后,我们希望我们的MAP-Neo将增强和加强开放研究社区,激发更多创新和创造力,促进LLMs的进一步改进。
偏好优化,特别是通过人类反馈的强化学习(RLHF),已经在使大型语言模型(LLMs)与人类意图保持一致方面取得了显著成功。与使用固定数据集进行离线对齐不同,从人类或人工智能收集在线反馈,通常会通过迭代过程产生更有能力的奖励模型,并且更好地对齐LLMs。然而,要实现全局准确的奖励模型,需要系统地探索以生成涵盖自然语言广阔空间的多样化响应。仅从标准奖励最大化的LLMs中进行随机抽样是不足以满足这一要求的。为了解决这个问题,我们提出了一个双层目标,乐观地偏向潜在高奖励响应,以积极探索超出分布范围的区域。通过使用重新参数化的奖励函数解决内部问题,得到的算法,名为自我探索语言模型(SELM),消除了对单独RM的需求,并通过简单的目标迭代更新LLM。与直接偏好优化(DPO)相比,SELM目标减少了对未见外推的不加区分的偏爱,并增强了探索效率。我们的实验结果表明,当在Zephyr-7B-SFT和Llama-3-8B-Instruct模型上进行微调时,SELM显著提升了在MT-Bench和AlpacaEval 2.0等指令遵循基准测试中的性能,以及在不同设置下的各种标准学术基准测试。我们的代码和模型可在https://github.com/shenao-zhang/SELM 上获得。
基于扩散的文本到视频(T2V)模型取得了显著成功,但仍然受到迭代采样过程速度缓慢的阻碍。为了解决这一挑战,一些一致性模型被提出以促进快速推理,尽管以牺牲样本质量为代价。在这项工作中,我们旨在突破视频一致性模型(VCM)的质量瓶颈,实现快速且高质量的视频生成。我们引入了T2V-Turbo,它将来自可微分奖励模型混合的反馈集成到预训练T2V模型的一致性蒸馏(CD)过程中。值得注意的是,我们直接优化与单步生成相关的奖励,这些奖励自然产生于计算CD损失,有效地绕过了通过迭代采样过程反向传播梯度所施加的内存限制。值得注意的是,我们的T2V-Turbo生成的4步视频在VBench上获得了最高的总分,甚至超过了Gen-2和Pika。我们进一步进行人类评估以证实结果,验证了我们的T2V-Turbo生成的4步视频优于它们的教师模型的50步DDIM样本,实现了十倍以上的加速同时提高了视频生成质量。
本文研究了大型语言模型(LLMs)在发展高阶心智理论(ToM)方面的程度;即人类推理多种心理和情感状态的能力,以递归方式进行(例如,我认为你相信她知道)。本文在先前研究的基础上引入了一个手工测试套件 -- 多阶心智问答 -- 并使用它来比较五个LLMs在新收集的成年人基准上的表现。我们发现,GPT-4和Flan-PaLM在整体ToM任务上达到了成年人水平和接近成年人水平的表现,而GPT-4在第6阶推理上超过了成年人的表现。我们的结果表明,模型大小和微调之间存在相互作用,以实现ToM能力,表现最佳的LLMs已经发展出了一种普遍的ToM能力。鉴于高阶ToM在广泛合作和竞争人类行为中的作用,这些发现对面向用户的LLM应用具有重要意义。
对于大型语言模型(LLM)的对齐,无论是通过从人类反馈中进行强化学习还是直接偏好优化,主导框架是从偏好数据中学习。这涉及构建数据集,其中每个元素都是一个四元组,由提示、两个独立响应(提示的完成)和人类在两个独立响应之间的偏好组成,得出一个首选响应和一个不首选响应。这类数据通常稀缺且收集成本高。另一方面,单轨数据集中,每个元素是一个三元组,由提示、一个响应和人类反馈组成,自然更为丰富。这类数据集的典型元素例如是LLM对用户提示的响应,随后是用户的反馈,比如点赞/踩。因此,在这项工作中,我们提出了DRO,即直接奖励优化,作为一个框架及相关算法,不需要成对的偏好。DRO使用简单的均方目标,可以以多种方式实现。我们通过使用T5编码器-解码器语言模型在实证中验证了我们的发现,并展示了DRO相对于选择的基线(如Kahneman-Tversky Optimization,KTO)的性能。因此,我们证实了DRO是一种简单且在实证上令人信服的单轨策略优化方法。
大型语言模型(LLMs)经常会产生幻觉,缺乏为其生成提供归因的能力。kNN-LM等半参数模型通过在非参数数据存储中使用其最近邻匹配来优化给定提示的LM输出,以解决这些限制。然而,这些模型通常表现出较慢的推理速度,并生成不流畅的文本。本文介绍了最近邻推测解码(NEST),这是一种新颖的半参数语言建模方法,能够将任意长度的现实文本片段合并到LM生成中,并为其来源提供归因。NEST在每个推理步骤执行标记级检索,计算半参数混合分布,并在语料库中识别有前途的片段延续。然后,它使用一种近似的推测解码过程,接受检索到的片段的前缀或生成新的标记。NEST显著提高了基本LM在各种知识密集型任务中的生成质量和归因率,超越了传统的kNN-LM方法,并与上下文检索增强方法竞争性地表现。此外,NEST大幅提高了生成速度,在应用于Llama-2-Chat 70B时,推理时间实现了1.8倍的加速。
本文介绍了EasyAnimate,这是一种先进的视频生成方法,利用变压器架构的强大功能实现高性能结果。我们将最初设计用于2D图像合成的DiT框架进行了扩展,以适应3D视频生成的复杂性,其中包括了一个运动模块块。该模块用于捕捉时间动态,从而确保生成一致的帧和流畅的运动过渡。运动模块可以适应各种DiT基线方法,以生成具有不同风格的视频。它还可以在训练和推断阶段生成具有不同帧率和分辨率的视频,适用于图像和视频。此外,我们引入了切片VAE,这是一种压缩时间轴的新方法,有助于生成长时间视频。目前,EasyAnimate展示了生成包含144帧视频的能力。我们提供了基于DiT的视频制作全面生态系统,涵盖数据预处理、VAE训练、DiT模型训练(基线模型和LoRA模型)、以及端到端视频推断等方面。代码可在以下链接找到:https://github.com/aigc-apps/EasyAnimate。我们将持续努力提升我们方法的性能。
将多个生成基础模型整合在一起,尤其是那些在不同模态上训练的模型,以创造出比各部分之和更强大的东西,面临着重大挑战。两个关键障碍是获取对齐数据(包含相似含义但在不同模态中表达不同的概念),以及在跨领域生成任务中有效利用单模态表示,而不损害其原始单模态能力。 我们提出了Zipper,一种多塔解码器架构,通过使用交叉注意力灵活地组合来自独立预训练的单模态解码器的多模态生成模型,以解决这些问题。在我们融合语音和文本模态的实验中,我们展示了所提出的架构在具有有限对齐文本-语音数据的情况下表现出很强的竞争力。我们还展示了我们模型的灵活性,通过冻结相应的模态塔(例如文本),有选择性地保持单模态(例如文本到文本生成)生成性能。在输出模态为文本的跨模态任务(如自动语音识别(ASR))中,我们展示了冻结文本主干会导致性能下降可以忽略不计。在输出模态为语音的跨模态任务(如文本到语音生成(TTS))中,我们展示了使用预训练的语音主干相对于基线会带来更优越的性能。
在进一步将虚拟组件融入日常生活的过程中,创建高保真度的数字化人头版本是一个重要的里程碑。构建这样的化身是一个具有挑战性的研究问题,因为对照片逼真度和实时渲染性能的需求很高。在这项工作中,我们提出了神经参数高斯化身(NPGA),这是一种数据驱动方法,可以从多视角视频录制中创建高保真度、可控制的化身。我们的方法基于3D高斯飞溅,因为它具有高效的渲染能力,并且继承了点云的拓扑灵活性。与先前的工作相反,我们将化身的动态调节到神经参数头部模型(NPHM)的丰富表情空间上,而不是基于网格的3DMM。为此,我们将底层NPHM的反向变形场提炼为与光栅化渲染兼容的正向变形。所有其余的细节,如表情相关细节,都是从多视角视频中学习的。为了增加我们的化身的表现能力,我们使用每个基元潜在特征来增强规范高斯点云,这些特征控制其动态行为。为了规范这种增强的动态表现力,我们在潜在特征和预测动态上提出了拉普拉斯项。我们在公开的NeRSemble数据集上评估了我们的方法,结果表明NPGA在自我再现任务中比先前最先进的化身表现提高了2.6 PSNR。此外,我们展示了从现实世界单眼视频中准确的动画能力。
人类反馈强化学习(RLHF)已经展示出在将大型语言模型(LLMs)与人类偏好对齐方面具有巨大潜力。根据偏好数据的可用性,在线和离线RLHF都是活跃的研究领域。一个关键瓶颈是如何在从偏好数据学习的奖励函数中合理地融入不确定性估计,无论偏好数据是如何收集的。虽然在标准强化学习(RL)中,乐观或悲观的不确定性原则已经得到确认,但对于大型语言模型来说,一个实用且理论基础扎实的形式尚未出现,因为在任意策略参数化下,构建置信区间的标准技术变得难以处理。 在本文中,我们引入了一种统一的在线和离线RLHF方法——价值激励偏好优化(VPO)——它通过将奖励函数的最大似然估计与相应的值函数正则化,通过一个符号来调节乐观或悲观的选择。VPO还直接优化具有隐式奖励建模的策略,因此与直接偏好优化类似,共享更简单的RLHF流程。VPO的理论保证适用于在线和离线设置,与它们的标准RL对应物的速率相匹配。此外,在文本摘要和对话方面的实验验证了VPO的实用性和有效性。
声音内容是多媒体作品(如视频游戏、音乐和电影)中不可或缺的元素。最近,基于高质量扩散的声音生成模型可以作为创作者宝贵的工具。然而,尽管能够产生高质量的声音,这些模型通常在推理速度上存在缓慢的问题。这一缺点给创作者带来了负担,他们通常通过反复试验来调整声音,以使其符合艺术意图。为解决这一问题,我们引入了声音一致性轨迹模型(SoundCTM)。我们的模型实现了在高质量一步声音生成和多步生成之间的灵活过渡。这使得创作者可以在通过多步生成完善声音之前,最初使用一步样本来控制声音。虽然CTM基本上实现了灵活的一步和多步生成,但其出色的性能在很大程度上依赖于额外的预训练特征提取器和对抗损失,这些训练代价高且并非在其他领域总是可用。因此,我们重新构建了CTM的训练框架,并通过利用教师网络进行蒸馏损失,引入了一种新颖的特征距离。此外,我们在蒸馏无分类器引导轨迹的同时,同时训练有条件和无条件的学生模型,并在推理过程中在这些模型之间进行插值。我们还提出了无需训练的可控框架用于SoundCTM,利用其灵活的采样能力。SoundCTM实现了有前途的一步和多步实时声音生成,而无需使用任何额外的现成网络。此外,我们展示了SoundCTM在无需训练的情况下实现可控声音生成的能力。
现有基于扩散的文本到3D生成方法主要关注产生视觉逼真的形状和外观,通常忽略了下游任务所需的物理约束。生成的模型在放置在基于物理的模拟或3D打印中时经常无法保持平衡。这种平衡对于满足用户设计意图在互动游戏、具身人工智能和机器人技术中的重要性不言而喻,稳定的模型对于可靠的交互至关重要。此外,稳定的模型确保3D打印的物体,如家居装饰用的小雕像,可以独立站立而无需额外支撑。为填补这一空白,我们引入Atlas3D,这是一种自动且易于实施的方法,可增强现有基于得分蒸馏采样(SDS)的文本到3D工具。Atlas3D确保生成符合重力、接触和摩擦物理稳定性定律的自支撑3D模型。我们的方法结合了一种新颖的可微分基于模拟的损失函数和受物理启发的正则化,可作为现有框架的细化或后处理模块。我们通过大量生成任务验证了Atlas3D的有效性,并在模拟和真实环境中验证了生成的3D模型。