每日精选AI研究论文及翻译
多智体强化学习(MARL)在解决合作和竞争多智体问题方面取得了显著进展。MARL面临的主要挑战之一是需要明确预测智体行为以实现合作。为解决这一问题,我们提出了共享循环记忆变压器(SRMT),它通过汇集和全局广播个体工作记忆,将记忆变压器扩展到多智体环境,使智体能够隐式交换信息并协调其行动。我们在一个需要智体通过狭窄走廊的玩具瓶颈导航任务中以及在POGEMA基准任务集上评估了SRMT。在瓶颈任务中,SRMT在稀疏奖励下始终优于各种强化学习基线,并能有效泛化到训练中未见过的更长走廊。在包括迷宫、随机和MovingAI在内的POGEMA地图上,SRMT与最近的MARL、混合和基于规划的算法相竞争。这些结果表明,在基于变压器的架构中加入共享循环记忆可以增强去中心化多智体系统中的协调。训练和评估的源代码可在GitHub上找到:https://github.com/Aloriosa/srmt。
通过校正流技术,视频生成取得了显著进展,但问题如不平滑的运动和视频与提示之间的不对齐仍然存在。在这项工作中,我们开发了一个系统化流程,利用人类反馈来缓解这些问题并改进视频生成模型。具体而言,我们首先构建了一个以现代视频生成模型为重点的大规模人类偏好数据集,其中包括跨多个维度的成对注释。然后,我们引入了VideoReward,一个多维视频奖励模型,并研究注释和各种设计选择如何影响其奖励效果。从统一的强化学习角度出发,旨在通过KL正则化最大化奖励,我们通过扩展扩散模型中的算法,引入了三种基于流模型的对齐算法。这些包括两种训练时策略:用于流的直接偏好优化(Flow-DPO)和用于流的奖励加权回归(Flow-RWR),以及一种推理时技术,Flow-NRG,它将奖励指导直接应用于嘈杂的视频。实验结果表明,VideoReward明显优于现有的奖励模型,而Flow-DPO与Flow-RWR和标准监督微调方法相比表现更优。此外,Flow-NRG允许用户在推理过程中为多个目标分配自定义权重,满足个性化视频质量需求。项目页面:https://gongyeliu.github.io/videoalign。
我们介绍了Sigma,这是一种专为系统领域设计的高效大型语言模型,采用了一种包括DiffQKV注意力在内的新型架构,并在我们精心收集的系统领域数据上进行了预训练。DiffQKV注意力通过根据它们对模型性能和效率指标的不同影响优化注意力机制中的查询(Q)、键(K)和值(V)组件,显著提升了Sigma的推理效率。具体来说,我们(1)进行了大量实验,证明了模型对压缩K和V组件的敏感性不同,从而导致了不同压缩的KV的发展,以及(2)提出了增强的Q以扩展Q头维度,从而增强了模型的表示能力,对推理速度的影响最小。严格的理论和实证分析表明,DiffQKV注意力显著提升了效率,在长上下文情况下推理速度比传统的分组查询注意力(GQA)提升了高达33.36%。我们从各种来源预训练了Sigma,包括我们精心收集的195亿系统领域数据和1万亿合成和重写数据。在一般领域中,Sigma的性能与其他最先进的模型相当。在系统领域中,我们引入了第一个全面的基准AIMicius,Sigma在所有任务中表现出色,明显优于GPT-4,绝对改进高达52.5%。
链式推理(CoT)已被广泛应用于大型模型中,用于解决复杂的理解任务。然而,目前仍然存在一个问题,即这种策略是否可以应用于验证和加强图像生成场景。本文首次全面调查了CoT推理对增强自回归图像生成潜力的可能性。我们专注于三种技术:扩展测试时计算以进行验证、将模型偏好与直接偏好优化(DPO)对齐,以及将这些技术整合以产生互补效果。我们的结果表明,这些方法可以被有效地调整和结合,从而显著改善图像生成性能。此外,鉴于奖励模型在我们研究中的关键作用,我们提出了适用于自回归图像生成的潜在评估奖励模型(PARM)和PARM++。PARM通过潜在评估方法自适应评估每个生成步骤,融合了现有奖励模型的优势,而PARM++进一步引入了反射机制,以自我纠正生成的不理想图像。利用我们调查的推理策略,我们改进了基准模型Show-o,取得了优越的结果,在GenEval基准测试中实现了显著的+24%改进,超过了Stable Diffusion 3的+15%。我们希望我们的研究提供了独特的见解,并为将CoT推理与自回归图像生成相结合开辟了新的道路。代码和模型已发布在https://github.com/ZiyuGuo99/Image-Generation-CoT。
人类通过三个认知阶段获取知识:感知信息、理解知识和调整知识以解决新问题。视频作为这一学习过程的有效媒介,促进了在这些认知阶段之间的进展。然而,现有的视频基准未能系统评估大型多模型模型(LMMs)在知识获取方面的能力。为填补这一空白,我们引入了Video-MMMU,这是一个多模态、多学科基准,旨在评估LMMs从视频中获取和利用知识的能力。Video-MMMU包含了300个专家级视频和900个人工注释问题的精选集,涵盖六个学科领域,通过阶段对齐的问题-答案对评估知识获取:感知、理解和调整。提出了一种知识增益度量,Δknowledge,用于量化观看视频后性能的提升。对LMMs的评估显示,在认知需求增加时,性能急剧下降,并突显了人类和模型知识获取之间的显著差距,强调了需要改进LMMs学习和从视频中适应的方法的必要性。
尽管视频大型多模型(video-LMMs)取得了显著进展,但对于长视频的有效时间定位仍然是现有模型面临的挑战。为了解决这一局限性,我们提出了时间偏好优化(Temporal Preference Optimization,TPO)——一种新颖的后训练框架,旨在通过偏好学习增强视频-LMMs的时间定位能力。TPO采用自训练方法,使模型能够通过利用两个粒度的筛选偏好数据集来区分良好定位和不太准确的时间响应:局部时间定位,侧重于特定视频片段;全面时间定位,捕捉整个视频序列中的扩展时间依赖关系。通过在这些偏好数据集上进行优化,TPO显著增强了时间理解能力,同时减少了对手动注释数据的依赖。在三个长视频理解基准测试上进行的大量实验——LongVideoBench、MLVU和Video-MME,展示了TPO在两种最先进的视频-LMMs上的有效性。值得注意的是,LLaVA-Video-TPO在Video-MME基准测试中确立了自己作为领先的7B模型的地位,突显了TPO作为推动长视频理解中时间推理的可扩展和高效解决方案的潜力。项目页面:https://ruili33.github.io/tpo_website。
随着扩散模型的快速发展,文本到图像(T2I)模型取得了显著进展,在即时跟随和图像生成方面展现出令人印象深刻的能力。最近推出的模型,如FLUX.1和Ideogram2.0,以及其他模型如Dall-E3和Stable Diffusion 3,在各种复杂任务中表现出卓越性能,引发了关于T2I模型是否朝着通用适用性发展的疑问。除了传统的图像生成,这些模型展现出跨越多个领域的能力,包括可控生成、图像编辑、视频、音频、3D和动态生成,以及计算机视觉任务,如语义分割和深度估计。然而,当前的评估框架不足以全面评估这些模型在不断扩展的领域中的性能。为了全面评估这些模型,我们开发了IMAGINE-E,并测试了六个知名模型:FLUX.1、Ideogram2.0、Midjourney、Dall-E3、Stable Diffusion 3和Jimeng。我们的评估分为五个关键领域:结构化输出生成、逼真度和物理一致性、特定领域生成、具有挑战性的场景生成以及多样式创建任务。这一全面评估突出了每个模型的优势和局限,特别是FLUX.1和Ideogram2.0在结构化和特定领域任务中的出色表现,强调了T2I模型作为基础AI工具的应用扩展和潜力。这项研究为T2I模型作为通用工具的现状和未来发展轨迹提供了宝贵的见解。评估脚本将在https://github.com/jylei16/Imagine-e发布。
近期大型语言模型(LLMs)在数学推理方面取得了显著成功。尽管像思维链提示和自一致性抽样等方法取得了进展,但这些进展通常侧重于最终的正确性,而未确保底层推理过程的连贯性和可靠性。本文介绍了Step-KTO,这是一个训练框架,结合了过程级和结果级的二元反馈,以引导LLMs朝着更值得信赖的推理轨迹发展。通过为中间推理步骤和最终答案提供二元评估,Step-KTO鼓励模型遵循逻辑推进,而不是依赖表面的捷径。我们在具有挑战性的数学基准测试上进行的实验表明,Step-KTO显著提高了最终答案的准确性和中间推理步骤的质量。例如,在MATH-500数据集上,Step-KTO在Pass@1准确率方面较强基线取得了显著改进。这些结果突显了将分步过程反馈整合到LLM训练中的潜力,为更具解释性和可靠性的推理能力铺平了道路。
最近的视频修复算法将基于流的像素传播与基于变压器的生成相结合,利用光流从相邻帧恢复纹理和物体信息,同时通过视觉变压器完成遮挡区域。然而,这些方法在处理大面积遮罩时往往会出现模糊和时间不一致的问题,突显了需要具有增强生成能力的模型。最近,扩散模型作为图像和视频生成中一种卓越的技术应运而生,因其出色的性能。本文介绍了DiffuEraser,一种基于稳定扩散的视频修复模型,旨在用更多细节和更连贯的结构填补遮罩区域。我们结合先验信息提供初始化和弱条件,有助于减轻噪点和抑制虚假信息。此外,为了在长序列推断期间改善时间一致性,我们扩展了先验模型和DiffuEraser的时间感知域,并通过利用视频扩散模型的时间平滑属性进一步增强一致性。实验结果表明,我们提出的方法在内容完整性和时间一致性方面优于最先进的技术,同时保持可接受的效率。
研究人员提出了对大型语言模型(LLMs)中幻觉的担忧,然而在创造力至关重要的领域,如药物发现领域,它们的潜力值得探索。在本文中,我们提出了一个假设,即幻觉可以改善LLMs在药物发现中的表现。为验证这一假设,我们使用LLMs将分子的SMILES字符串用自然语言描述,然后将这些描述作为提示的一部分来处理药物发现中的特定任务。在七个LLMs和五个分类任务上进行评估,我们的研究结果证实了这一假设:LLMs在包含幻觉文本时可以实现更好的性能。值得注意的是,Llama-3.1-8B相比没有幻觉的基准模型,ROC-AUC增益达到18.35%。此外,由GPT-4o生成的幻觉在各模型中提供了最一致的改进。此外,我们进行了实证分析和案例研究,以调查影响性能和潜在原因的关键因素。我们的研究揭示了幻觉在LLMs中潜在应用的可能性,并为未来利用LLMs进行药物发现的研究提供了新的视角。
文本到图像生成模型可以从输入提示中创建高质量的图像。然而,它们在支持故事叙述中保持一致生成保留身份的要求方面存在困难。解决这一问题的现有方法通常需要在大型数据集上进行广泛训练或对原始模型架构进行额外修改。这限制了它们在不同领域和不同扩散模型配置中的适用性。在本文中,我们首先观察到语言模型的固有能力,即上下文一致性,通过单个提示理解身份。受固有上下文一致性的启发,我们提出了一种新颖的无需训练的一致文本到图像(T2I)生成方法,称为“一提示一故事”(1Prompt1Story)。我们的方法1Prompt1Story将所有提示连接成单个输入,供T2I扩散模型使用,最初保留角色身份。然后,我们使用两种新技术:奇异值重新加权和保持身份的交叉注意力来优化生成过程,确保与每帧的输入描述更好地对齐。在实验中,我们将我们的方法与各种现有的一致T2I生成方法进行比较,通过定量指标和定性评估展示其有效性。代码可在https://github.com/byliutao/1Prompt1Story找到。
最近视频生成方面的进展显著影响了各种下游应用,特别是在保持身份的视频生成(IPT2V)方面。然而,现有方法在处理“复制粘贴”伪影和低相似度问题时存在困难,主要是因为它们过度依赖低级别的面部图像信息。这种依赖可能导致刚性的面部外观和反映无关细节的伪影。为了解决这些挑战,我们提出了EchoVideo,它采用两个关键策略:(1)身份图像-文本融合模块(IITF),集成来自文本的高级语义特征,捕获干净的面部身份表示,同时丢弃遮挡、姿势和光照变化,以避免引入伪影;(2)两阶段训练策略,第二阶段采用随机方法,随机利用浅层面部信息。其目标是在减轻对浅层特征过度依赖的同时平衡浅层特征所提供的保真度增强。这种策略鼓励模型在训练过程中利用高级特征,最终培养更强大的面部身份表示。EchoVideo有效地保持面部身份并保持全身完整性。大量实验证明,它在生成高质量、可控性和保真度视频方面取得了出色的结果。
常见的用于将已有模型与期望行为对齐的方法依赖于人类提供监督的能力。然而,未来的超人类模型将超越人类的能力。因此,人类只能对超人类模型进行弱监督。人类评估的这种预期不足将削弱未来人工智能系统的安全性。可扩展的监督和弱到强泛化是解决这一问题的两种互补方法。在本文中,我们尝试结合这两种方法的优势,进一步改进对齐。具体而言,我们研究了利用强预训练模型改进人类监督的方式,然后用增强的弱人类监督监督强模型。为了进行迭代经验进展,我们考虑了一个类比:我们能否利用强模型改进弱模型的监督,然后再用它来监督强模型?我们通过在地面真实标签上对一个小的弱模型进行微调,并借助一个大的强模型的额外帮助,然后通过对由弱模型生成的标签对强模型进行微调来进行实证测试。我们发现辩论可以帮助弱模型从一个不可信的强模型中提取可信赖的信息,这在训练弱模型时提供了样本的上下文。我们还展示了一组弱模型有助于利用由强模型辩手生成的长论点,并获得更稳健的监督估计。对OpenAI弱到强自然语言处理基准的大量实验表明,这种组合方法导致更好的对齐,这表明辩论有助于弱到强泛化。
多模态大型语言模型(MLLMs)已经展示出显著的进展,为具有潜在未来的具身代理提供了希望。现有用于评估MLLMs的基准主要利用静态图像或视频,限制了对非交互式场景的评估。与此同时,现有的具身人工智能基准是特定任务的,并且不够多样化,无法充分评估MLLMs的具身能力。为了解决这个问题,我们提出了EmbodiedEval,这是一个针对MLLMs具身任务的全面交互式评估基准。EmbodiedEval包含了328个不同任务,在125个多样化的3D场景中,每个任务都经过严格选择和注释。它涵盖了广泛的现有具身人工智能任务,具有显著增强的多样性,全部在为MLLMs量身定制的统一仿真和评估框架内。这些任务分为五类:导航、物体交互、社交互动、属性问题回答以及空间问题回答,以评估代理的不同能力。我们在EmbodiedEval上评估了最先进的MLLMs,并发现它们在具身任务上与人类水平相比存在显著不足。我们的分析展示了现有MLLMs在具身能力方面的局限性,为它们未来的发展提供了见解。我们在https://github.com/thunlp/EmbodiedEval 开源了所有评估数据和仿真框架。
本文声称,机器学习(ML)在很大程度上忽视了普遍智能的一个重要方面:对未知未来的鲁棒性,尤其是在一个开放世界中。这种鲁棒性与经济学中的Knightian不确定性(KU)有关,即无法量化的不确定性,在ML的关键形式化中被排除在考虑之外。本文旨在识别这一盲点,论证其重要性,并催生研究以解决这一问题,我们认为这对于创造真正鲁棒的开放世界人工智能是必要的。为了帮助阐明这一盲点,我们将ML的一个领域,强化学习(RL),与生物进化过程进行对比。尽管RL取得了惊人的持续进展,但在开放世界的情况下仍然面临困难,经常在意想不到的情况下失败。例如,目前将仅在美国训练过的自动驾驶汽车政策零-shot转移到英国的想法似乎过于雄心勃勃。戏剧性的对比是,生物进化经常产生在开放世界中茁壮成长的个体,有时甚至适应了非常不同的情况(例如入侵物种;或者人类,他们确实进行了这种零-shot国际驾驶)。有趣的是,进化在没有明确理论、形式化或数学梯度的情况下实现了这种鲁棒性。我们探讨了支撑RL典型形式化的假设,展示了它们如何限制了RL与不断变化的复杂世界特征中的未知未知的接触。此外,我们确定了进化过程促进对新颖和不可预测挑战的鲁棒性的机制,并讨论了在算法上体现这些机制的潜在途径。结论是,ML仍然存在引人注目的脆弱性可能是由于其形式化中的盲点,直接面对KU挑战可能会带来显著收益。
大型语言模型(LLMs)需要大量的计算资源,因此在不从头开始重新训练的情况下增强它们的能力至关重要。在这一领域的一个关键挑战是灾难性遗忘(CF),它影响了连续预训练(CPT)和连续监督微调(CSFT)期间的性能。我们提出了Control LLM,这是一种新颖的方法,利用并行预训练和扩展的Transformer块,通过插值策略对齐它们的隐藏状态。这种方法有效地保持了现有任务的性能,同时无缝集成了新知识。 大量实验证明了Control LLM在CPT和CSFT中的有效性。在Llama3.1-8B-Instruct上,它在数学推理(+14.4%在Math-Hard)和编码性能(+10%在MBPP-PLUS)方面取得了显著的改进。在Llama3.1-8B上,它增强了多语言能力(+10.6%在C-Eval,+6.8%在CMMLU,+30.2%在CMMLU-0shot-CoT)。它超越了现有方法,在使用更少的数据和计算资源的情况下,从相同基础模型微调的开源模型中实现了SOTA。关键是,这些收益是在保持强大原始能力的同时实现的,与开源数学和编码模型中的>35%相比,其降级很小(<4.3%在MMLU)。这种方法已成功应用于LinkedIn的GenAI驱动的求职者和广告单元产品中。 为了支持进一步的研究,我们向社区发布了训练和评估代码(https://github.com/linkedin/ControlLLM),以及在公共数据集上训练的模型(https://huggingface.co/ControlLLM)。
3D 高斯飘带技术已经实现了对静态场景的高效逼真渲染。最近的研究将这些方法扩展到支持表面重建和跟踪。然而,使用 3D 高斯方法跟踪动态表面仍然具有挑战性,因为存在复杂的拓扑变化,比如表面的出现、消失或分裂。为了解决这些挑战,我们提出了 GSTAR,这是一种新颖的方法,实现了对具有变化拓扑的一般动态场景的逼真渲染、准确表面重建和可靠的 3D 跟踪。给定多视图捕获作为输入,GSTAR 将高斯绑定到网格面以表示动态对象。对于拓扑一致的表面,GSTAR 保持网格拓扑并使用高斯跟踪网格。在拓扑变化的区域,GSTAR 自适应地将高斯从网格解绑,实现准确的配准并基于这些优化的高斯生成新表面。此外,我们引入了一种基于表面的场景流方法,为帧间跟踪提供了稳健的初始化。实验证明我们的方法有效地跟踪和重建动态表面,实现了一系列应用。我们的项目页面及代码发布可在 https://eth-ait.github.io/GSTAR/ 上找到。