每日精选AI研究论文及翻译
人类反馈强化学习(RLHF)已成为将大型语言模型与人类偏好对齐的关键方法,通过诸如近端策略优化(PPO)、直接偏好优化(DPO)、REINFORCE Leave One-Out(RLOO)、ReMax 和群体相对策略优化(GRPO)等方法,见证了快速的算法演进。我们提出了REINFORCE++,这是经典REINFORCE算法的增强变体,它融合了PPO的关键优化技术,同时消除了对评论网络的需求。REINFORCE++ 实现了三个主要目标:(1)简单性,(2)增强的训练稳定性,以及(3)降低的计算开销。通过广泛的实证评估,我们证明了REINFORCE++ 相对于GRPO表现出更优越的稳定性,并且比PPO实现了更高的计算效率,同时保持了可比较的性能。该实现可在https://github.com/OpenRLHF/OpenRLHF 获取。
物理人工智能首先需要在数字环境中进行训练。它需要一个自身的数字孪生体,即策略模型,以及一个数字世界的孪生体,即世界模型。在本文中,我们介绍了宇宙世界基金会模型平台,以帮助开发人员为其物理人工智能设置构建定制的世界模型。我们将世界基金会模型定位为通用的世界模型,可被微调为下游应用的定制世界模型。我们的平台涵盖视频策划流程、预训练的世界基金会模型、预训练的世界基金会模型后训练示例以及视频标记器。为了帮助物理人工智能构建者解决我们社会最关键的问题,我们将我们的平台开源,并通过 https://github.com/NVIDIA/Cosmos 提供具有宽松许可的开放权重模型。
实时大型多模型(LMM)的出现,如GPT-4o,引发了对高效LMM的极大兴趣。LMM框架通常将视觉输入编码为视觉令牌(连续表示),并将它们与文本指令整合到大型语言模型(LLMs)的上下文中,其中大规模参数和大量上下文令牌(主要是视觉令牌)导致了大量的计算开销。以往对高效LMM的努力总是集中在用较小的模型替换LLM骨干,而忽视了令牌数量的关键问题。本文介绍了LLaVA-Mini,一种具有最少视觉令牌的高效LMM。为了实现视觉令牌的高压缩比,同时保留视觉信息,我们首先分析了LMM如何理解视觉令牌,并发现大多数视觉令牌仅在LLM骨干的早期层中起关键作用,主要将视觉信息融合到文本令牌中。基于这一发现,LLaVA-Mini引入了模态预融合,提前将视觉信息融合到文本令牌中,从而促进了将馈送到LLM骨干的视觉令牌的极端压缩为一个令牌。LLaVA-Mini是一个统一的大型多模型,可以高效地支持图像、高分辨率图像和视频的理解。对11个基于图像和7个基于视频的基准进行的实验表明,LLaVA-Mini在仅使用1个视觉令牌而不是576个的情况下优于LLaVA-v1.5。效率分析显示,LLaVA-Mini可以将FLOPs减少77%,在40毫秒内提供低延迟响应,并且在具有24GB内存的GPU硬件上处理超过10,000帧的视频。
本文介绍了Sa2VA,这是第一个用于图像和视频的密集基础理解的统一模型。与现有的多模态大型语言模型不同,这些模型通常局限于特定的模态和任务,Sa2VA支持广泛的图像和视频任务,包括指代分割和对话,只需进行最少的一次性指导调整。Sa2VA将SAM-2(一个基础视频分割模型)与LLaVA(一个先进的视觉语言模型)相结合,并将文本、图像和视频统一到共享的LLM标记空间中。利用LLM,Sa2VA生成指导SAM-2生成精确蒙版的指令标记,实现对静态和动态视觉内容的基础、多模态理解。此外,我们引入了Ref-SAV,一个包含超过72k个复杂视频场景中物体表达的自动标记数据集,旨在提高模型性能。我们还手动验证了Ref-SAV数据集中的2k个视频物体,以评估在复杂环境中的指代视频物体分割。实验表明,Sa2VA在多个任务上实现了最先进的水平,特别是在指代视频物体分割方面,突显了其在复杂实际应用中的潜力。
近年来,视觉语言模型(VLMs)在视频理解方面取得了显著进展。然而,一个关键能力——细粒度动作理解,在当前基准测试中仍未得到充分探索。为了填补这一空白,我们提出了MotionBench,一个全面的评估基准,旨在评估视频理解模型对细粒度动作理解的能力。MotionBench通过六种主要的面向动作的问题类型评估模型的动作级别感知,并包含从多种来源收集的数据,确保对真实世界视频内容的广泛代表性。实验结果显示,现有的VLMs在理解细粒度动作方面表现不佳。为了增强VLM在有限LLM序列长度内感知细粒度动作的能力,我们进行了大量实验,审查了针对视频特征压缩进行优化的VLM架构,并提出了一种新颖高效的Through-Encoder(TE)融合方法。实验表明,更高帧率的输入和TE融合可以提高动作理解能力,但仍有很大的改进空间。我们的基准旨在引导和激励更具能力的视频理解模型的发展,强调细粒度动作理解的重要性。项目页面:https://motion-bench.github.io。
扩散模型已经展示出在从文本提示或图像中生成高质量视频方面的出色性能。然而,对视频生成过程的精确控制,如摄像机操作或内容编辑,仍然是一个重大挑战。现有的受控视频生成方法通常局限于单一控制类型,缺乏处理多样化控制需求的灵活性。在本文中,我们介绍了一种名为Diffusion as Shader(DaS)的新方法,它支持统一架构内的多个视频控制任务。我们的关键见解是,实现多功能视频控制需要利用3D控制信号,因为视频从根本上是动态3D内容的2D渲染。与之前局限于2D控制信号的方法不同,DaS利用3D跟踪视频作为控制输入,使视频扩散过程本质上具备3D意识。这一创新使得DaS能够通过简单操作3D跟踪视频实现广泛的视频控制。使用3D跟踪视频的另一个优势在于它们能够有效地连接帧,显著增强所生成视频的时间一致性。通过在8个H800 GPU上进行不到10k个视频的3天微调,DaS展示了在各种任务中的强大控制能力,包括网格到视频生成、摄像机控制、动作转移和物体操作。
从文档自动生成演示文稿是一项具有挑战性的任务,需要平衡内容质量、视觉设计和结构连贯性。现有方法主要集中在改进和评估内容质量,往往忽视视觉设计和结构连贯性,从而限制了它们的实际适用性。为了解决这些局限性,我们提出了PPTAgent,通过受人类工作流程启发的两阶段基于编辑的方法全面改进演示文稿生成。PPTAgent首先分析参考演示文稿以理解其结构模式和内容模式,然后通过代码操作起草大纲并生成幻灯片,以确保一致性和对齐。为了全面评估生成演示文稿的质量,我们进一步引入了PPTEval,一个评估框架,评估演示文稿的内容、设计和连贯性三个维度。实验证明,PPTAgent在所有三个维度上显著优于传统的自动演示文稿生成方法。代码和数据可在https://github.com/icip-cas/PPTAgent获取。
最近在理解和生成图像、文本和语音方面取得了全模态学习的最新进展,尽管主要集中在专有模型内。有限的全模态数据集以及与实时情感语音生成相关的固有挑战阻碍了开源进展。为了解决这些问题,我们提出了openomni,这是一种两阶段训练方法,结合了全模态对齐和语音生成,以开发最先进的全模态大型语言模型。在对齐阶段,一个预训练的语音模型进一步在文本-图像任务上进行训练,以实现从视觉到语音的泛化(几乎)零-shot方式,胜过在三模态数据集上训练的模型。在语音生成阶段,一个轻量级解码器通过在语音任务和偏好学习上进行训练,促进实时情感语音。实验证明,openomni在全模态、视觉-语言和语音-语言评估中持续改进,实现自然、富有情感的对话和实时情感语音生成。
由于人工智能(AI)的发展,科学研究范式正在经历深刻的转变。最近的研究表明,各种AI辅助研究方法可以通过改善数据分析、加速计算和促进新颖思路的产生,大大提高研究效率。为了进一步实现最终目标(即自动科学研究),本文提出了Dolphin,这是第一个闭环开放式自动研究框架,以进一步构建整个人类科学研究过程。Dolphin能够生成研究思路,执行实验,并从实验结果中获得反馈,以生成更高质量的思路。具体而言,Dolphin首先基于按主题和任务属性排名的相关论文生成新颖思路。然后,代码会根据异常-回溯引导的本地代码结构进行自动生成和调试。最后,Dolphin会自动分析每个思路的结果,并将结果反馈给下一轮的思路生成。在不同主题的基准数据集上进行了实验,结果显示Dolphin能够持续生成新颖思路并在循环中完成实验。我们强调,Dolphin能够自动提出在某些任务中与最先进技术相媲美的方法,如2D图像分类和3D点分类。
我们提出了Magic Mirror,这是一个用于生成保留身份的视频的框架,具有电影级质量和动态运动。虽然最近视频扩散模型在文本到视频生成方面展现出令人印象深刻的能力,但在产生自然运动的同时保持一致的身份仍然具有挑战性。先前的方法要么需要特定个人的微调,要么在保持身份一致性与运动多样性之间难以平衡。基于视频扩散Transformer,我们的方法引入了三个关键组件:(1) 一个双分支面部特征提取器,捕捉身份和结构特征,(2) 一个轻量级的跨模态适配器,具有条件自适应归一化,用于高效整合身份,以及(3) 一个结合了合成身份对和视频数据的两阶段训练策略。大量实验证明,Magic Mirror有效地平衡了身份一致性和自然运动,在多个指标上优于现有方法,同时需要添加的参数很少。代码和模型将在以下网址公开提供:https://github.com/dvlab-research/MagicMirror/
3D 高斯飘逸(3DGS)在场景表示和神经渲染方面取得了显著进展,人们致力于将其应用于动态场景。尽管现有方法在提供出色的渲染质量和速度方面表现出色,但在存储需求和复杂现实世界运动表示方面存在困难。为了解决这些问题,我们提出了MoDecGS,这是一个内存高效的高斯飘逸框架,旨在重建具有复杂运动挑战性场景中的新视图。我们引入了全局到局部运动分解(GLMD),以有效地以粗到细的方式捕捉动态运动。该方法利用全局规范支架(Global CS)和局部规范支架(Local CS),将静态支架表示扩展到动态视频重建。对于全局 CS,我们提出了全局锚点变形(GAD),通过直接变形隐式支架属性(锚点位置、偏移和局部上下文特征)来高效表示沿复杂运动的全局动态。接下来,我们通过局部高斯变形(LGD)明确地对局部 CS 进行微调。此外,我们引入了时间间隔调整(TIA),在训练过程中自动控制每个局部 CS 的时间覆盖范围,使 MoDecGS 能够基于指定数量的时间段找到最佳的间隔分配。广泛的评估表明,MoDecGS 在来自真实世界动态视频的动态 3D 高斯模型方面,相较于最先进方法,实现了平均模型尺寸减少 70%,同时保持甚至提高了渲染质量。
人类反馈的强化学习(RLHF)被广泛应用于将语言模型(LMs)与人类偏好对齐。先前的RLHF工作通常采用赌博机制式的方法,尽管直观,却忽略了LM生成的序贯性质,并可能受到稀疏奖励问题的困扰。最近的研究提出了密集的标记级RLHF,将每个标记视为一个动作可能对适当的奖励分配过于微妙。在本文中,我们试图通过训练和利用一个段级奖励模型来兼顾二者,该模型为跨越短序列标记的每个语义完整文本段分配奖励。对于奖励学习,我们的方法允许动态文本分割,并与标准序列偏好数据集兼容。为了针对段奖励进行有效的基于RL的LM训练,我们将经典标量赌博奖励标准化器推广为位置感知标准化器函数,并对段奖励进行插值以进一步增加密集度。通过这些设计,我们的方法在LM策略的三个流行RLHF基准测试中表现出竞争力:AlpacaEval 2.0、Arena-Hard和MT-Bench。我们进行了消融研究以进一步展示我们的方法。
我们提出了一种修改Transformer架构的方法,通过将图感知关系推理整合到注意力机制中,融合了图神经网络和语言建模的概念。基于注意力和图论之间的固有联系,我们将Transformer的注意力机制重新表述为图操作,并提出了图感知同构注意力。该方法利用先进的图建模策略,包括图同构网络(GIN)和主邻域聚合(PNA),丰富了关系结构的表示。我们的方法捕捉了复杂的依赖关系,并在各种任务中实现了泛化,表现为减小的泛化差距和改进的学习性能。此外,我们将图感知注意力的概念扩展到引入稀疏GIN-Attention,这是一种利用稀疏GIN进行微调的方法。通过将注意力矩阵解释为稀疏邻接图,这种技术增强了预训练基础模型的适应性,同时带来了图感知能力,而且计算开销很小。与低秩适应(LoRA)等替代方法相比,稀疏GIN-Attention微调实现了改进的训练动态和更好的泛化性能。我们讨论了传统注意力机制中的潜在图结构,提供了一种新的理解Transformer的视角。通过将Transformer演变为用于关系推理的分层GIN模型。这种观点为基础模型的发展带来了深远的影响,使得可以设计动态适应本地和全局依赖关系的架构。生物信息学、材料科学、语言建模等领域的应用可以从关系和序列数据建模的综合中受益,为可解释和可泛化的建模策略奠定基础。
我们解决了通过控制同一人的面部动作单元(AU)的相对变化来进行面部表情编辑的问题。这使我们能够以精细、连续和可解释的方式编辑特定人的表情,同时保留其身份、姿势、背景和详细的面部属性。我们模型MagicFace 的关键是一个以AU变化为条件的扩散模型和一个ID编码器,用于保留高一致性的面部细节。具体来说,为了保留输入身份的面部细节,我们利用预训练的稳定扩散模型的能力,并设计了一个ID编码器,通过自注意力合并外观特征。为了保持背景和姿势的一致性,我们引入了一个高效的属性控制器,明确告知模型目标的当前背景和姿势。通过将AU变化注入去噪UNet,我们的模型可以使用各种AU组合为任意身份赋予动画效果,在高保真度表情编辑方面相比其他面部表情编辑作品取得了优越的结果。代码公开可在 https://github.com/weimengting/MagicFace 获取。
文本引导的图像对图像扩散模型在基于文本提示翻译图像方面表现出色,允许进行精确和创造性的视觉修改。然而,这种强大的技术可能被滥用用于传播错误信息、侵犯版权和规避内容追踪。这促使我们引入了针对文本引导的图像对图像扩散模型的起源识别任务(ID^2),旨在检索给定翻译查询的原始图像。ID^2的一个直接解决方案涉及训练一个专门的深度嵌入模型,以提取并比较查询和参考图像的特征。然而,由于不同扩散模型生成的代际之间存在视觉差异,当在一个模型的图像上进行训练并在另一个模型的图像上进行测试时,这种基于相似性的方法会失败,从而限制了其在实际应用中的有效性。为了解决所提出的ID^2任务的挑战,我们提供了第一个数据集和一个在理论上保证的方法,两者都强调通用性。精心策划的数据集OriPID包含丰富的起源和引导提示,可用于在各种扩散模型上训练和测试潜在的识别模型。在方法部分,我们首先证明了存在一种线性转换,可以最小化生成样本的预训练变分自动编码器(VAE)嵌入与它们起源之间的距离。随后,证明了这样一个简单的线性转换可以在不同的扩散模型之间泛化。实验结果表明,所提出的方法实现了令人满意的泛化性能,明显优于基于相似性的方法(+31.6% mAP),甚至是具有泛化设计的方法。