每日精选AI研究论文及翻译
网页导航是一个独特的领域,能够自动化许多重复的现实任务,其挑战性在于需要超越典型多模态大语言模型(MLLM)任务的长期序列决策。然而,迄今为止,尚缺乏可在训练和测试期间使用的专门针对网页导航的奖励模型。尽管速度和成本效益至关重要,先前的研究却将MLLM用作奖励模型,这为实际部署带来了显著限制。为解决这一问题,本研究首次提出了名为Web-Shepherd的过程奖励模型(PRM),它能够在步骤级别评估网页导航轨迹。为此,我们首先构建了WebPRM Collection,这是一个包含4万步级别偏好对及跨多个领域和难度等级的标注清单的大规模数据集。接着,我们还引入了WebRewardBench,这是首个用于评估PRM的元评估基准。实验结果显示,与使用GPT-4o相比,我们的Web-Shepherd在WebRewardBench上的准确率提升了约30个百分点。此外,在WebArena-lite测试中,采用GPT-4o-mini作为策略模型并以Web-Shepherd作为验证器时,我们实现了比使用GPT-4o-mini作为验证器时高出10.9个百分点的性能提升,同时成本减少了10倍。我们的模型、数据集及代码已公开于LINK。
我们推出了MMaDA,一种新型的多模态扩散基础模型,旨在文本推理、多模态理解及文本到图像生成等多个领域实现卓越性能。该方法的三大创新点在于:(一)MMaDA采用统一的扩散架构,具备共享的概率公式和模态无关设计,摒弃了特定模态组件,确保了不同数据类型间的无缝整合与处理。(二)我们实施了混合长链思维(CoT)微调策略,跨模态统一了CoT格式。通过对齐文本与视觉领域的推理过程,此策略为最终强化学习(RL)阶段提供了冷启动训练,从而增强了模型从一开始处理复杂任务的能力。(三)我们提出了UniGRPO,一种专为扩散基础模型设计的统一策略梯度RL算法。利用多样化的奖励建模,UniGRPO统一了推理与生成任务的后训练,确保了性能的持续提升。实验结果显示,MMaDA-8B作为统一的多模态基础模型展现了强大的泛化能力。它在文本推理上超越了LLaMA-3-7B和Qwen2-7B,在多模态理解上优于Show-o和SEED-X,在文本到图像生成方面超越了SDXL和Janus。这些成就凸显了MMaDA在统一扩散架构内弥合预训练与后训练之间差距的有效性,为未来研究与发展提供了一个全面的框架。我们已在https://github.com/Gen-Verse/MMaDA开源了代码及训练模型。
大型语言模型(LLMs)需要大量的计算和内存资源,这给部署带来了挑战。量化感知训练(QAT)通过降低模型精度同时保持性能来应对这些挑战。然而,QAT的扩展行为,特别是在4位精度(W4A4)下的表现,尚未得到充分理解。现有的QAT扩展定律往往忽略了关键因素,如训练令牌数量和量化粒度,这限制了其适用性。本文提出了一种统一的QAT扩展定律,将量化误差建模为模型大小、训练数据量和量化组大小的函数。通过268次QAT实验,我们发现量化误差随着模型大小的增加而减小,但随着训练令牌数量的增加和量化粒度的变粗而上升。为了识别W4A4量化误差的来源,我们将其分解为权重和激活分量。这两个分量都遵循W4A4量化误差的总体趋势,但具有不同的敏感性。具体而言,权重量化误差随着训练令牌数量的增加而更快地上升。进一步分析表明,由异常值引起的FC2层激活量化误差是W4A4 QAT量化误差的主要瓶颈。通过应用混合精度量化来解决这一瓶颈,我们证明了权重和激活量化误差可以收敛到相似的水平。此外,随着训练数据的增加,权重量化误差最终会超过激活量化误差,这表明在这种情况下减少权重量化误差也很重要。这些发现为改进QAT研究和开发提供了关键见解。
基于大规模预训练和后训练的大型语言模型(LLM)嵌入模型,在诸如文档检索等通用文本嵌入任务上已开始超越基于BERT和T5的模型。然而,LLM嵌入的一个根本局限在于自回归预训练期间使用的单向注意力机制,这与文本嵌入任务的双向特性存在偏差。为此,我们提出采用扩散语言模型进行文本嵌入,其动机在于其固有的双向架构以及在推理任务上匹配甚至超越LLM的最新成功。我们首次系统性地研究了扩散语言嵌入模型,该模型在长文档检索上比LLM嵌入模型高出20%,在推理密集型检索上高出8%,在指令跟随检索上高出2%,并在传统文本嵌入基准测试中取得了具有竞争力的表现。我们的分析证实,双向注意力机制对于编码长且复杂文本的全局上下文至关重要。
传统的视觉定位方法主要针对单一图像场景下的简单文本参照。然而,将这些方法扩展到涉及隐含且复杂指令的现实场景,尤其是与多幅图像结合时,面临重大挑战,这主要归因于跨多样多模态情境下高级推理能力的不足。本研究致力于解决更为实用的通用定位任务,提出了UniVG-R1,一个推理引导的多模态大语言模型(MLLM),用于通用视觉定位,通过结合强化学习(RL)与冷启动数据来增强推理能力。具体而言,我们首先构建了一个高质量的思维链(CoT)定位数据集,标注了详细的推理链条,以通过监督微调引导模型走向正确的推理路径。随后,实施基于规则的强化学习,激励模型识别正确的推理链,从而提升其推理能力。此外,我们识别出随着RL训练推进,易样本占主导导致的难度偏差,并提出了一种难度感知的权重调整策略,以进一步增强性能。实验结果表明,UniVG-R1的有效性,在MIG-Bench上实现了9.1%的性能提升,超越了先前方法。此外,我们的模型展现出强大的泛化能力,在四个图像与视频推理定位基准测试中,零样本性能平均提升了23.4%。项目页面可通过https://amap-ml.github.io/UniVG-R1-page/访问。
长期以来,获取高质量轨迹数据的规模化一直是开发类人计算机使用代理的关键瓶颈。我们推出了PC Agent-E,一种高效的代理训练框架,显著降低了对大规模人类演示的依赖。仅从312条人工标注的计算机使用轨迹出发,我们通过Claude 3.7 Sonnet合成了多样化的动作决策,进一步提升了数据质量。在这些增强轨迹上训练的PC Agent-E模型,在WindowsAgentArena-V2(我们同时发布的一个改进基准)上取得了141%的相对提升,超越了经过扩展思考的Claude 3.7 Sonnet。此外,PC Agent-E在OSWorld上展现出对不同操作系统的强大泛化能力。我们的研究表明,少量高质量轨迹数据即可激发强大的计算机使用能力。
我们推出Toto,一个拥有1.51亿参数的时间序列预测基础模型。Toto采用现代仅解码器架构,并结合了针对多元可观测性时间序列数据特有挑战设计的架构创新。Toto的预训练语料库由可观测性数据、开放数据集和合成数据混合而成,其规模是领先时间序列基础模型的4至10倍。此外,我们引入了BOOM,一个包含2,807条真实世界时间序列、总计3.5亿观测点的大规模基准测试集。对于Toto和BOOM,我们仅从Datadog自身的遥测数据和内部可观测性指标中获取可观测性数据。广泛的评估表明,Toto在BOOM及现有通用时间序列预测基准测试上均达到了最先进的性能。Toto的模型权重、推理代码和评估脚本,以及BOOM的数据和评估代码,均以Apache 2.0许可证开源提供,访问地址为https://huggingface.co/Datadog/Toto-Open-Base-1.0和https://github.com/DataDog/toto。
大型推理模型(LRMs)通过强化学习(RL)在解决复杂问题方面展现了显著能力,尤其是通过生成长推理轨迹。然而,这些冗长的输出往往存在大量冗余,限制了LRMs的效率。本文探讨了基于RL的方法以提升推理效率。具体而言,我们首先提出了一个统一框架,通过基于长度的奖励塑造视角来形式化各种高效推理方法。基于这一视角,我们提出了一种新颖的基于长度的步进奖励塑造方法(LASER),该方法采用由目标长度控制的步函数作为奖励。LASER超越了以往方法,在性能与效率之间实现了更优的帕累托最优平衡。接着,我们基于两个关键直觉进一步扩展了LASER:(1)模型的推理行为在训练过程中不断演变,需要奖励规范也具备适应性和动态性;(2)与其统一鼓励更短或更长的思维链(CoT),我们认为基于长度的奖励塑造应具备难度感知能力,即对于简单查询,应更严厉地惩罚过长的CoT。这一方法有望促进快慢思维的结合,实现更好的整体权衡。由此产生的被称为LASER-D(动态且难度感知)的方法。在DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B上的实验表明,我们的方法显著提升了推理性能和响应长度效率。例如,LASER-D及其变体在AIME2024上实现了+6.1的提升,同时减少了63%的令牌使用。进一步分析显示,我们基于RL的压缩产生了更简洁的推理模式,减少了冗余的“自我反思”。相关资源请访问https://github.com/hkust-nlp/Laser。
世界模型通过历史观测和动作序列预测状态转移,在提升序列决策的数据效率方面展现出巨大潜力。然而,现有世界模型往往需要大量领域特定训练,且生成的预测精度低、粒度粗,限制了其在复杂环境中的适用性。相比之下,基于大规模互联网数据集训练的视频扩散模型,在生成高质量、捕捉多样现实世界动态的视频方面展现了卓越能力。本研究提出Vid2World,一种将预训练视频扩散模型迁移并应用于交互式世界模型的通用方法。为弥合这一差距,Vid2World通过对预训练视频扩散模型进行因果化改造,调整其架构与训练目标,以实现自回归生成。此外,该方法引入了一种因果动作引导机制,以增强所得交互式世界模型中的动作可控性。在机器人操作和游戏仿真领域的广泛实验表明,我们的方法为将高性能视频扩散模型重新应用于交互式世界模型提供了一种可扩展且有效的途径。
获取精细的三维场景通常需要昂贵的设备、多视角数据或费时费力的建模过程。因此,一种轻量级的替代方案——从单一俯视图像生成复杂的三维场景,在实际应用中扮演着至关重要的角色。尽管近期的三维生成模型在物体级别上取得了显著成果,但将其扩展至全场景生成时,常出现几何不一致、布局幻觉及低质量网格等问题。本研究中,我们提出了3DTown,一个无需训练即可从单一俯视图像合成逼真且连贯三维场景的框架。我们的方法基于两大原则:基于区域的生成以提升图像到三维的对齐与分辨率,以及空间感知的三维修复以确保全局场景的一致性和高质量几何生成。具体而言,我们将输入图像分解为重叠区域,利用预训练的三维物体生成器分别生成各区域,随后通过掩码修正流修复过程填补缺失几何,同时保持结构连续性。这种模块化设计使我们能够克服分辨率瓶颈,保留空间结构,而无需三维监督或微调。跨多种场景的广泛实验表明,3DTown在几何质量、空间连贯性和纹理保真度方面均优于包括Trellis、Hunyuan3D-2和TripoSG在内的最先进基线方法。我们的成果证明,采用一种有原则、无需训练的方法,从单一图像实现高质量三维城镇生成是可行的。
大型推理模型(LRMs)通过长推理链实现了卓越的性能,但在简单任务上常因冗余推理而产生过高的计算开销。本研究系统量化了LRMs在“长思考”与“无思考”模式下的性能上限,揭示了“内部自我恢复机制”现象,即模型在生成答案时隐式补充推理过程。基于这一发现,我们提出了自适应自我恢复推理(ASRR)框架,该框架抑制不必要的推理,实现隐式恢复。通过引入精度感知的长度奖励调节机制,ASRR根据问题难度自适应分配推理资源,在几乎不牺牲性能的前提下实现高效推理。在多个基准和模型上的实验表明,与GRPO相比,ASRR在1.5B和7B模型上分别减少了高达32.5%和25.7%的推理预算,且准确率损失极小(pass@1分别下降1.2%和0.6%),同时在安全基准上的无害率显著提升(最高提升21.7%)。我们的研究结果凸显了ASRR在实现高效、自适应且更安全的LRMs推理方面的潜力。
玩电子游戏需要感知、记忆和规划能力,这些正是现代大型语言模型(LLM)代理被期望掌握的核心能力。我们研究了利用流行电子游戏评估现代LLM的主要挑战,发现直接将LLM投入游戏中无法进行有效评估,原因有三——脆弱的视觉感知、提示敏感性以及潜在的数据污染。为此,我们引入了lmgame-Bench,将游戏转化为可靠的评估工具。lmgame-Bench包含一系列平台、解谜和叙事类游戏,通过统一的Gym风格API提供,并配备轻量级的感知与记忆框架,旨在稳定提示差异并消除数据污染。在13个领先模型的测试中,lmgame-Bench既具挑战性又能有效区分模型性能。相关性分析表明,每款游戏都探测了在其他场景中常被单独测试的独特能力组合。更有趣的是,在lmgame-Bench中的单一游戏上进行强化学习,其效果能迁移至未见过的游戏及外部的规划任务。我们的评估代码已发布于https://github.com/lmgame-org/GamingAgent/lmgame-bench。
人类天生运用多种推理模式来学习和解决逻辑问题,即不同的表征形式,如自然语言、代码和符号逻辑。相比之下,现有大多数基于大语言模型(LLM)的方法在训练过程中仅采用单一推理模式,通常是自然语言。尽管有些方法在推理时探索了模式选择或增强,但训练过程仍对模式视而不见,限制了模式间的协同效应。为填补这一空白,我们提出了“思维混合”(Mixture-of-Thought, MoT)框架,使LLM能够在三种互补模式间进行推理:自然语言、代码,以及新引入的符号模式——真值表,后者系统地枚举逻辑案例,部分缓解了自然语言推理中的关键失败模式。MoT采用两阶段设计:(1)自我进化的MoT训练,联合学习跨模式过滤后的自生成推理依据;(2)MoT推理,充分利用三种模式的协同作用,以产生更优预测。在包括FOLIO和ProofWriter在内的逻辑推理基准测试中,实验表明我们的MoT框架始终显著优于采用单一模式链式思维(chain-of-thought)的强LLM基线,平均准确率提升高达+11.7个百分点。进一步分析显示,MoT框架在训练和推理阶段均带来益处;尤其在解决更难的逻辑推理问题时效果显著;不同模式贡献了互补优势,其中真值表推理有助于克服自然语言推理中的关键瓶颈。
诸如OpenAI o1和DeepSeek-R1等大型推理模型在推理领域取得了显著成就。其训练过程中的一个关键要素在于将可验证奖励机制融入强化学习(RL)框架。然而,现有的奖励基准并未对基于参考的奖励系统进行评估,导致研究人员对RL中所用验证器的准确性理解有限。本文中,我们引入了两个基准——VerifyBench与VerifyBench-Hard,旨在评估基于参考的奖励系统的性能。这些基准通过细致的数据收集与整理构建,并辅以精心的人工标注以确保高质量。当前模型在VerifyBench与VerifyBench-Hard上,尤其是规模较小的模型,仍显示出较大的改进空间。此外,我们对评估结果进行了全面深入的分析,为理解与开发基于参考的奖励系统提供了洞见。我们提出的基准作为有效工具,不仅指导了验证器准确性的提升,也促进了通过RL训练的模型在推理任务中推理能力的发展。
人类认知通常涉及对抽象、流动概念的思考,而非严格依赖离散的语言符号。然而,当前的推理模型局限于人类语言的边界内,处理代表语义空间中固定点的离散符号嵌入。这种离散性限制制约了此类推理模型的表达能力和上限潜力,常常导致推理路径的探索不完整,因为标准的思维链(CoT)方法依赖于每一步采样一个符号。在本研究中,我们提出了“软思考”方法,这是一种无需训练的技术,通过在连续概念空间中生成柔软、抽象的概念符号,来模拟人类“软”推理。这些概念符号由符号嵌入的概率加权混合构成,形成了连续的概念空间,实现了平滑过渡和超越传统离散边界的更丰富表示。本质上,每个生成的概念符号封装了来自相关离散符号的多种含义,隐式地探索了多种推理路径,从而有效收敛至正确答案。在多样化的数学和编程基准测试中,实证评估一致证明了“软思考”的有效性和效率,与标准CoT相比,pass@1准确率最高提升2.48个百分点,同时符号使用量最多减少22.4%。定性分析进一步显示,“软思考”的输出保持高度可解释性和可读性,凸显了其突破基于离散语言推理固有瓶颈的潜力。代码已发布于https://github.com/eric-ai-lab/Soft-Thinking。
扩散语言模型(DLMs)被视为自回归语言模型的有力竞争者。然而,扩散语言模型长期以来受限于推理速度缓慢的问题。核心挑战在于其非自回归架构和双向注意力机制无法利用加速解码的键值缓存。我们通过为DLMs的去噪过程提出一种类似KV缓存的机制——延迟KV缓存(delayed KV-Cache),来解决这一瓶颈。我们的方法基于观察到不同token在扩散过程中具有不同的表示动态性,因此提出了一种延迟且条件化的键值状态缓存策略。我们设计了两种互补的变体来逐步缓存键和值:(1) dKV-Cache-Decode,它提供了几乎无损的加速,甚至在长序列上提升了性能,表明现有DLMs在推理过程中可能未充分利用上下文信息;(2) dKV-Cache-Greedy,采用激进缓存并缩短生命周期,以一定的性能下降为代价,实现了更高的加速比,时间复杂度为二次方。最终,dKV-Cache在推理速度上实现了2到10倍的提升,大幅缩小了自回归模型与扩散模型之间的差距。我们在多个基准测试上评估了dKV-Cache,在通用语言理解、数学和代码生成任务上均实现了加速。实验证明,缓存同样适用于DLMs,甚至可以在现有DLMs上以无需训练的方式直接应用。
当前的文本到图像(T2I)生成模型虽取得了显著成果,但在处理文本提示中隐含知识不确定的场景时仍显不足。例如,二月发布的T2I模型难以生成四月上映电影的海报,因为角色设计与风格对模型而言尚不明确。为解决此问题,我们提出了一种互联网增强的文本到图像生成(IA-T2I)框架,通过提供参考图像,使T2I模型能够明确此类不确定知识。具体而言,该框架包含一个主动检索模块,用于根据给定文本提示判断是否需要参考图像;引入了一个分层图像选择模块,以从图像搜索引擎返回的结果中筛选最合适的图像来增强T2I模型;并提出了自我反思机制,持续评估和优化生成图像,确保其与文本提示忠实对齐。为评估所提框架的性能,我们收集了一个名为Img-Ref-T2I的数据集,其中文本提示包含三类不确定知识:(1)已知但罕见;(2)未知;(3)模糊。此外,我们精心设计了一个复杂提示,指导GPT-4o进行偏好评估,其评估准确度已证明与人类偏好评估相近。实验结果表明,我们的框架在人类评估中表现优异,较GPT-4o提升了约30%。
基于知识图谱的检索增强生成旨在缓解大型语言模型(LLMs)因知识不足或过时而产生的幻觉问题。然而,现有方法往往未能充分利用知识图谱(KGs)中蕴含的先验知识,尤其是其结构信息及显式或隐式约束。前者可增强LLMs推理的忠实性,后者则能提升响应生成的可靠性。基于此,我们提出了一种可信推理框架,称为“先验审思”(Deliberation over Priors, DP),该框架充分挖掘了KGs中的先验知识。具体而言,DP采用渐进式知识蒸馏策略,通过结合监督微调与卡尼曼-特沃斯基优化,将结构先验融入LLMs,从而提升关系路径生成的忠实度。此外,我们的框架还运用了推理自省策略,引导LLMs基于提取的约束先验进行精细化推理验证,确保响应生成的可靠性。在三个基准数据集上的大量实验表明,DP实现了新的最先进性能,特别是在ComplexWebQuestions数据集上Hit@1指标提升了13%,并生成了高度可信的响应。我们还进行了多项分析,验证了其灵活性与实用性。代码已发布于https://github.com/reml-group/Deliberation-on-Priors。
利用专有数据对开源大语言模型(LLMs)进行微调,已成为下游开发者获取任务特定LLMs的标准做法。然而,令人惊讶的是,我们揭示了一种伴随此实践而来的新风险:开源LLMs的创建者随后可通过简单的后门训练,仅需对微调后的下游模型进行黑盒访问,便能提取私有的下游微调数据。我们在一系列广泛实验中,针对4个广泛使用的开源模型(参数规模从3B到32B不等)和2个下游数据集进行了测试,结果表明,数据提取效果惊人地高:在实际场景下,从总计5000个样本中,高达76.3%的下游微调数据(查询)可被完美提取,而在更理想条件下,成功率可提升至94.9%。我们还探索了一种基于检测的防御策略,但发现其可被改进后的攻击所绕过。总体而言,我们强调了这一新发现的微调数据泄露风险的紧迫性,并期待更多后续研究能推动解决这一令人担忧的风险。实验所用代码与数据已发布于https://github.com/thu-coai/Backdoor-Data-Extraction。
世界模型通过预测状态在行动下的转移,正日益在多种模态中得到发展。然而,诸如最大似然估计(MLE)等标准训练目标常与世界模型的任务特定目标——如转移预测的准确性或感知质量——存在偏差。本文提出RLVR-World,一个统一框架,它利用可验证奖励的强化学习(RLVR)直接针对这些指标优化世界模型。尽管将世界建模形式化为对标记化序列的自回归预测,RLVR-World却通过解码预测的指标作为可验证奖励进行评估。我们在包括文本游戏、网页导航及机器人操作等多个领域内,展示了基于语言和视频的世界模型在性能上的显著提升。我们的研究表明,除了近期在推理语言模型方面的进展外,RLVR为更广泛地提升生成模型的实用性提供了一个有前景的后训练范式。
大型推理模型(LRMs)在数学和编程等推理密集型任务上取得了显著成功。然而,其增强的推理能力并不必然转化为安全性能的提升——在某些情况下,甚至可能降低安全性。这引发了一个重要的研究问题:我们如何提升LRMs的安全性?本文通过监督微调(SFT)对增强LRMs安全性进行了全面的实证研究。我们的调查始于一个意外发现:直接从DeepSeek-R1中蒸馏安全响应未能显著提升安全性。我们分析了这一现象,并识别出导致此结果的三个关键失败模式。随后,我们证明在数据蒸馏过程中明确解决这些问题可以带来显著的安全改进。接着,我们探讨了实现安全性是否需要长而复杂的推理过程。有趣的是,我们发现仅使用简短或基于模板的推理过程即可达到相当的安全性能,并且模型学习这些过程比学习更复杂的推理链要容易得多。这些发现促使我们深入反思推理在确保安全性中的作用。最后,我们发现,在安全微调过程中混合数学推理数据有助于平衡安全性与过度拒绝。总体而言,我们希望我们的实证研究能为提升LRMs的安全性提供更全面的视角。实验所用的代码和数据已发布于https://github.com/thu-coai/LRM-Safety-Study。
扩散变换器(DiT)作为一种前景广阔的视觉生成扩散模型,虽展现出卓越性能,却伴随着显著的计算开销。有趣的是,对预训练DiT模型的分析表明,全局自注意力机制往往存在冗余,主要捕捉局部模式,这提示了存在更高效替代方案的可能性。本文重新审视卷积作为构建高效且表达能力强的扩散模型的替代基础模块。然而,简单地将自注意力替换为卷积通常会导致性能下降。我们的研究将这一性能差距归因于卷积神经网络(ConvNets)相比变换器(Transformers)具有更高的通道冗余。为解决此问题,我们引入了一种紧凑的通道注意力机制,该机制促进更多样化通道的激活,从而增强特征多样性。由此诞生了扩散卷积网络(DiCo),这是一系列完全由标准卷积模块构建的扩散模型,在提供强大生成性能的同时显著提升了效率。在类别条件ImageNet基准测试中,DiCo在图像质量和生成速度上均超越了以往的扩散模型。特别地,DiCo-XL在256x256分辨率下取得了2.05的FID分数,在512x512分辨率下为2.53,分别比DiT-XL/2快了2.7倍和3.1倍。此外,我们最大的模型DiCo-H,参数规模扩展至10亿,在ImageNet 256x256上达到了1.90的FID分数——且训练过程中未使用任何额外监督。代码已发布:https://github.com/shallowdream204/DiCo。
近期,大型推理模型(LRMs)在数学与逻辑推理方面展现出了令人瞩目的能力。然而,当前的LRMs极少承认无知或回应“我不知道”,反而常常在表现出过度自信的同时给出错误答案,这引发了对其事实可靠性的担忧。在本研究中,我们识别出两种由过度思考导致的病态推理模式,它们助长了这种过度自信与错误答案:最后一刻的猜测和反复纠结的螺旋思维。为解决这些问题,我们提出了BARREL——一个旨在促进简洁且边界意识强的事实推理的新框架。实验表明,经过BARREL训练后,DeepSeek-R1-Distill-Llama-8B的可靠性从39.33%提升至61.48%,同时保持了与基于R1生成推理数据进行微调的模型相当的准确度。这些结果证明,我们的初步研究对于构建更加可靠且基于事实的系统二型LRMs具有启发意义。
对话式搜索系统需要有效处理那些常常包含歧义、省略和指代等上下文依赖的查询。对话式查询重构(CQR)通过将这些查询转化为适合现成检索器的自包含形式来应对这一挑战。然而,现有的CQR方法面临两个关键限制:高度依赖来自人工标注或大型语言模型的高成本外部监督,以及重写模型与下游检索器之间的对齐不足。我们提出了ConvSearch-R1,这是首个完全消除对外部重写监督依赖的自驱动框架,它通过强化学习直接利用检索信号优化重构过程。我们的创新两阶段方法结合了自驱动策略预热,通过检索引导的自蒸馏解决冷启动问题,随后采用检索引导的强化学习,并设计了一种专门针对传统检索指标稀疏性问题的排名激励奖励塑造机制。在TopiOCQA和QReCC数据集上的大量实验表明,ConvSearch-R1显著超越了之前的最先进方法,在具有挑战性的TopiOCQA数据集上实现了超过10%的性能提升,同时仅使用较小的3B参数模型且无需任何外部监督。
在标准的自回归生成过程中,大型语言模型(LLM)预测下一个词元的分布,采样一个离散词元,随后丢弃该分布,仅将采样得到的词元作为新的输入传递。为了保留这一分布所蕴含的丰富信息,我们提出了“输入混合”(Mixture of Inputs, MoI),一种无需训练的自回归生成方法。在按照标准范式生成一个词元后,我们构建一个新的输入,将生成的离散词元与先前被丢弃的词元分布相结合。具体而言,我们采用贝叶斯估计方法,将词元分布视为先验,采样词元作为观测值,并用连续的后验期望替代传统的一热向量,作为模型的新输入。MoI使得模型在整个生成过程中能够维持更丰富的内部表示,从而提升文本质量和推理能力。在数学推理、代码生成及博士级问答任务上,MoI在包括QwQ-32B、Nemotron-Super-49B、Gemma-3-27B和DAPO-Qwen-32B在内的多个模型中均一致提升了性能,且无需额外训练,计算开销微乎其微。
大型语言模型(LLMs)中的偏见显著削弱了其可靠性与公平性。我们聚焦于一种常见偏见形式:当模型概念空间中的两个参照概念(如情感极性“积极”与“消极”)与第三个目标概念(如评论方面)存在不对称关联时,模型会表现出非预期的偏见。例如,对“食物”的理解不应偏向任何特定情感。现有偏见评估方法通过为不同社会群体构建标注数据并测量模型在这些群体间的响应差异来评估LLMs的行为差异,这一过程需耗费大量人力且仅能捕捉有限的社会概念。为克服这些局限,我们提出了BiasLens,一种基于模型向量空间结构的无测试集偏见分析框架。BiasLens结合概念激活向量(CAVs)与稀疏自编码器(SAEs)提取可解释的概念表示,并通过测量目标概念与各参照概念间表示相似性的变化来量化偏见。即便无需标注数据,BiasLens与传统偏见评估指标也显示出高度一致性(斯皮尔曼相关系数r > 0.85)。此外,BiasLens揭示了现有方法难以检测的偏见形式。例如,在模拟临床场景中,患者的保险状态可能导致LLM产生偏见的诊断评估。总体而言,BiasLens为偏见发现提供了一种可扩展、可解释且高效的范式,为提升LLMs的公平性与透明度开辟了新途径。
基于机器学习的原子间势能和力场高度依赖于精确的原子结构,然而,由于实验解析晶体的有限性,此类数据极为稀缺。尽管原子分辨率电子显微镜为结构数据提供了潜在来源,但将这些图像转换为模拟就绪格式仍是一项劳动密集且易出错的工作,成为模型训练与验证的瓶颈。我们推出了AutoMat,一个端到端、由智能体辅助的流程,它能够自动将扫描透射电子显微镜(STEM)图像转化为原子晶体结构,并预测其物理性质。AutoMat集成了模式自适应去噪、物理引导的模板检索、对称性感知的原子重建、通过MatterSim实现的快速弛豫与性质预测,以及各阶段间的协调调度。我们为此任务提出了首个专用基准STEM2Mat-Bench,并通过晶格均方根偏差(RMSD)、形成能平均绝对误差(MAE)及结构匹配成功率来评估性能。通过协调外部工具调用,AutoMat使得仅依赖文本的大型语言模型(LLM)在该领域超越了视觉-语言模型,实现了整个流程的闭环推理。在涵盖450个结构样本的大规模实验中,AutoMat显著优于现有的多模态大型语言模型及工具。这些成果不仅验证了AutoMat与STEM2Mat-Bench的有效性,也标志着在材料科学中连接显微技术与原子模拟的关键一步。代码与数据集已公开于https://github.com/yyt-2378/AutoMat 和 https://huggingface.co/datasets/yaotianvector/STEM2Mat。
熵最小化(EM)训练模型,使其在最具信心的输出上集中更多的概率质量。我们证明,仅这一简单目标,无需任何标注数据,就能显著提升大语言模型(LLMs)在数学、物理和编程等挑战性任务上的表现。我们探索了三种方法:(1)EM-FT类似于指令微调,最小化标记级别的熵,但针对模型生成的无标注输出;(2)EM-RL:以负熵为唯一奖励进行强化学习;(3)EM-INF:在推理时调整对数概率以减少熵,无需任何训练数据或参数更新。在Qwen-7B上,EM-RL无需任何标注数据,其性能与基于6万标注样本训练的GRPO和RLOO等强基线相当甚至更优。此外,EM-INF使Qwen-32B在SciCode基准测试中,与GPT-4o、Claude 3 Opus和Gemini 1.5 Pro等专有模型匹敌或超越,同时比自一致性和顺序优化方法效率高出3倍。我们的发现揭示,许多预训练LLMs具备先前未被充分认识的推理能力,仅通过熵最小化即可有效激发,无需任何标注数据甚至参数更新。
扩散模型已成为跨领域强大的生成工具,然而,针对特定理想属性定制预训练模型仍具挑战。尽管强化学习(RL)提供了一种有前景的解决方案,现有方法在实现稳定、高效微调的同时支持不可微分奖励方面仍面临困难。此外,它们对稀疏奖励的依赖在中间步骤中提供的监督不足,往往导致生成质量欠佳。为克服这些局限,整个扩散过程需要密集且可微分的信号。因此,我们提出了基于价值的强化扩散(VARD):一种新颖方法,该方法首先学习一个价值函数,预测从中间状态获得的奖励期望,随后结合KL正则化利用该价值函数,在整个生成过程中提供密集监督。我们的方法在保持与预训练模型接近的同时,通过反向传播实现了有效且稳定的训练。实验结果表明,我们的方法促进了更好的轨迹引导,提高了训练效率,并扩展了RL在针对复杂、不可微分奖励函数优化的扩散模型中的应用范围。
大型音频语言模型(LAMs)的兴起既带来了潜力也伴随着风险,其音频输出可能包含有害或不道德的内容。然而,当前研究缺乏对LAM安全性的系统性、定量评估,尤其是在对抗越狱攻击方面,由于语音的时序性和语义特性,这一挑战尤为严峻。为填补这一空白,我们推出了AJailBench,这是首个专门设计用于评估LAM越狱漏洞的基准测试。我们首先构建了AJailBench-Base,一个包含1,495个对抗性音频提示的数据集,覆盖10个违反政策的类别,这些提示通过逼真的文本到语音合成技术从文本越狱攻击转换而来。利用该数据集,我们对多个最先进的LAM进行了评估,发现无一能在各类攻击中展现出一致的鲁棒性。为了进一步加强越狱测试并模拟更真实的攻击条件,我们提出了一种生成动态对抗变体的方法。我们的音频扰动工具包(APT)在时间、频率和幅度域上应用了定向失真。为了保留原始越狱意图,我们实施了语义一致性约束,并采用贝叶斯优化高效搜索既微妙又高效的扰动,从而生成了AJailBench-APT,一个扩展的优化对抗性音频样本数据集。我们的研究结果表明,即便是微小且语义保持的扰动,也能显著降低领先LAM的安全性能,这凸显了开发更为鲁棒且语义感知的防御机制的必要性。
本文探讨了在强化微调(RFT)背景下的先验提示工程(pPE),其中语言模型(LMs)通过奖励信号被激励以展现最大化性能的行为。尽管现有的RFT研究主要集中于算法、奖励塑造和数据筛选,但在训练期间附加于查询之前以引导行为(如逐步推理)的先验提示设计仍未被充分研究。我们研究了不同的pPE方法是否能在RFT后引导LMs内化不同的行为。受推理时提示工程(iPE)启发,我们将五种代表性的iPE策略——推理、规划、基于代码的推理、知识回忆及空例利用——转化为相应的pPE方法。我们使用Qwen2.5-7B模型对每种pPE方法进行实验,并在领域内和领域外基准测试(如AIME2024、HumanEval+和GPQA-Diamond)上评估性能。结果显示,所有经过pPE训练的模型均优于其iPE提示的对应模型,其中空例pPE方法实现了最大的平均性能提升,并在AIME2024和GPQA-Diamond上取得了最高改进,超越了常用的推理方法。此外,通过采用行为分类框架,我们证明了不同的pPE策略在最终模型中植入了不同的行为风格。这些发现将pPE定位为RFT中一个强大但尚未被充分研究的维度。
当前,大型多模态模型(LMMs)在众多视觉语言基准测试中表现卓越,然而,在诸如公平性、伦理、同理心及包容性等以人为核心的标准上,它们仍面临挑战,这些标准对于与人类价值观保持一致至关重要。为此,我们推出了HumaniBench,这是一个包含32K真实世界图像问答对的综合基准,通过可扩展的GPT4o辅助流程进行标注,并由领域专家详尽验证。HumaniBench评估了七大人本人工智能(HCAI)原则:公平性、伦理、理解力、推理能力、语言包容性、同理心及鲁棒性,覆盖了七项多样化任务,包括开放式与封闭式视觉问答(VQA)、多语言问答、视觉定位、情感化描述以及鲁棒性测试。对15种顶尖LMMs(开源与闭源)的基准测试显示,尽管专有模型总体领先,但鲁棒性和视觉定位仍是其短板。部分开源模型在平衡准确性与遵循人本原则方面也存在困难。HumaniBench是首个围绕HCAI原则专门构建的基准,它为诊断对齐差距、引导LMMs实现既准确又社会负责的行为提供了严格的测试平台。数据集、标注提示及评估代码可在以下网址获取:https://vectorinstitute.github.io/HumaniBench。
奖励模型在将大语言模型(LLMs)与人类偏好对齐中扮演核心角色,但其训练成本高昂,需要大规模人工标注的偏好数据及强大的预训练LLM骨干。与此同时,高质量合成指令跟随数据集的日益普及引发了一个问题:在基于强化学习的对齐过程中,能否用更简单的、基于参考的指标替代奖励模型?本文首先揭示,在通用指令跟随数据集上,基本的字符串匹配指标BLEU意外地与强奖励模型在人类偏好一致性上表现相当。基于这一洞察,我们开发了BLEUBERI方法,该方法首先识别具有挑战性的指令,随后直接采用BLEU作为奖励函数,实施群体相对策略优化(GRPO)。我们证明,在四个高难度指令跟随基准测试及三种不同基础语言模型上,BLEUBERI训练的模型与通过奖励模型引导的RL训练模型表现相当。人类评估进一步支持,BLEUBERI模型输出的质量与奖励模型对齐模型持平。此外,BLEUBERI模型生成的输出在事实依据上优于竞争方法。总体而言,我们展示了在获得高质量参考输出(易于通过现有指令跟随数据集或合成数据生成获取)的情况下,基于字符串匹配的指标是对齐过程中奖励模型既经济又有效的替代品。我们在https://github.com/lilakk/BLEUBERI发布了代码与数据。
推测解码已成为加速大型语言模型(LLMs)推理同时保持其卓越文本生成性能的流行方法。以往的方法要么采用固定的推测解码配置,无视前缀令牌,要么通过离线或在线方式训练草稿模型以使其与上下文对齐。本文提出了一种无需训练、在线学习的框架,能够在文本生成过程中自适应地选择推测解码的超参数配置。我们首先将这一超参数选择问题形式化为多臂赌博机问题,并提供了一个通用的推测解码框架——BanditSpec。此外,设计了两种基于赌博机的超参数选择算法,UCBSpec和EXP3Spec,并针对一种新颖的量度——停止时间遗憾进行了分析。我们在随机和对抗性奖励设置下,对这一遗憾进行了上界分析。通过推导信息论上的不可能性结果,表明UCBSpec的遗憾性能在通用常数范围内是最优的。最后,利用LLaMA3和Qwen2进行的大量实证实验表明,与现有方法相比,我们的算法效果显著,在模拟真实LLM服务场景中,面对多样化的输入提示,其吞吐量接近最佳超参数下的理想值。
基于大型语言模型(LLM)的多智能体系统(MAS)在科学发现领域展现出显著潜力。然而,现有方法通常采用缺乏合理性约束的预定义工作流来自动化科学发现,这往往导致无目的的假设生成,并难以将假设与证据系统性地关联起来,从而阻碍了系统性的不确定性降低。从根本上克服这些限制,需要系统性地减少不确定性。我们提出了PiFlow,一个信息理论框架,将自动化科学发现视为一个由科学定律等原则指导的结构化不确定性降低问题。在三个不同科学领域的评估中——发现具有目标特性的纳米材料结构、生物分子和超导体候选材料——我们的方法显著提高了发现效率,表现为属性值与探索步骤的曲线下面积(AUC)增加了73.55%,并且与基础智能体系统相比,解决方案质量提升了94.06%。总体而言,PiFlow作为一种即插即用方法,为高效自动化科学发现建立了新的范式转变,为更稳健和加速的AI驱动研究铺平了道路。代码已公开在我们的GitHub仓库:https://github.com/amair-lab/PiFlow。
强化学习(RL)最近作为一种提升大型语言模型(LLMs)推理能力的有效方法崭露头角,其中LLM生成器作为由验证器(奖励模型)引导的策略。然而,当前针对LLMs的RL后训练方法通常采用固定的验证器(基于规则或预训练冻结)或通过监督微调(SFT)进行判别式训练。这类设计容易受到奖励欺骗的影响,且在训练分布之外泛化能力较差。为克服这些局限,我们提出了Tango,一个新颖的框架,利用RL以交替方式同时训练LLM生成器和验证器。Tango的核心创新在于其生成式的、过程级别的LLM验证器,该验证器通过RL训练并与生成器共同进化。重要的是,验证器仅基于结果级别的验证正确性奖励进行训练,无需显式的过程级别标注。与确定性或SFT训练的验证器相比,这种通过RL训练的生成式验证器展现出更高的鲁棒性和更优的泛化能力,促进了与生成器之间的有效相互强化。大量实验表明,Tango的两个组件在7B/8B规模模型中均取得了最先进的结果:生成器在五个竞赛级数学基准和四个具有挑战性的跨领域推理任务中均达到顶尖水平,而验证器则在ProcessBench数据集上领先。值得注意的是,两个组件在最具难度的数学推理问题上均表现出显著的提升。代码位于:https://github.com/kaiwenzha/rl-tango。
稳健评估大型语言模型(LLMs)的长篇叙事能力仍面临重大挑战,现有基准往往在规模、多样性或客观衡量标准上有所欠缺。为此,我们推出了WebNovelBench,这是一个专为评估长篇小说生成而设计的新颖基准。WebNovelBench利用了一个包含超过4000部中文网络小说的大规模数据集,将评估任务设定为从梗概到故事的生成。我们提出了一套多维度框架,涵盖八个叙事质量指标,通过LLM-as-Judge方法自动评估。采用主成分分析法汇总得分,并将其映射至与人类创作作品相比的百分位排名。实验表明,WebNovelBench能有效区分人类杰作、热门网络小说及LLM生成内容。我们对24个前沿LLM进行了全面分析,排序其叙事能力,并为未来发展提供洞见。该基准为评估和推进LLM驱动的叙事生成提供了一种可扩展、可复制且数据驱动的方法论。
大型多模态模型在多模态任务中表现出色,但在处理视觉标记时面临巨大的计算挑战,主要源于对视觉标记的过度计算。与专注于标记级冗余的标记缩减方法不同,我们识别并研究了视觉标记在计算层面的冗余,以确保信息无损失。我们的核心洞察是,来自预训练视觉编码器的视觉标记在仅解码器的大型多模态模型中,并不必然需要所有繁重的操作(如自注意力机制、前馈网络),通过合理设计,可以更轻量地处理这些标记。我们设计了一系列实验,旨在发现并逐步压缩与视觉相关的计算冗余。基于这些发现,我们提出了ProxyV,一种利用代理视觉标记来减轻原始视觉标记计算负担的新方法。ProxyV在不牺牲性能的前提下提升了效率,甚至在效率提升较为温和的场景下还能带来显著的性能增益。此外,ProxyV的灵活性体现在其与标记缩减方法的结合上,进一步提升了效率。代码将公开于https://github.com/penghao-wu/ProxyV。
视听语音识别(AVSR)通过整合视觉线索,增强了在嘈杂环境中的鲁棒性。尽管近期研究将大型语言模型(LLMs)融入AVSR,但其高昂的计算成本阻碍了在资源受限场景中的部署。为此,我们提出了Llama-SMoP,一种高效的多模态LLM,它采用稀疏投影器混合(SMoP)模块,在不增加推理成本的情况下扩展模型容量。通过引入稀疏门控的专家混合(MoE)投影器,Llama-SMoP使得使用较小规模的LLM成为可能,同时保持强劲性能。我们探索了三种SMoP配置,并证明Llama-SMoP DEDR(分离专家,分离路由器)——采用模态特定路由器和专家——在ASR、VSR及AVSR任务上实现了卓越性能。消融研究验证了其在专家激活、可扩展性及噪声鲁棒性方面的有效性。
人类听者能够通过接触迅速适应不熟悉的说话者和语言变体,但这种适应优势是否也适用于最先进的语音语言模型?我们引入了一个可扩展的框架,该框架允许在Phi-4多模态模型中使用交错任务提示和音频-文本对进行上下文学习(ICL),并发现仅需在推理时提供12个示例话语(约50秒),即可在多样化的英语语料库上平均相对降低19.7%(1.2个百分点)的词错误率。这些改进在低资源变体中最为显著,当上下文与目标说话者匹配时,以及提供更多示例时——尽管扩展我们的程序会带来对上下文长度的边际收益递减。总体而言,我们发现我们的新颖ICL适应方案(1)展现出与人类听者相似的性能特征,并且(2)在多样化的说话者和语言背景中,对自动语音识别(ASR)的鲁棒性表现出了一致的提升。尽管适应在广泛范围内取得成功,但对于某些变体仍存在显著差距,揭示了当前模型在灵活性方面仍不及人类。我们在GitHub上发布了我们的提示和代码。
大型语言模型(LLMs)在忠实性和事实性方面存在固有局限,通常被称为“幻觉”问题。目前已有多个基准测试为英语数据集中的事实性评估提供了测试平台,这些测试依赖于网页链接或文本段落等补充信息,却忽视了现有的结构化事实资源。为此,知识图谱(KGs)被认定为缓解幻觉问题的有效辅助工具,因为它们能以最小语言开销的方式,结构化地呈现实体及其关系的事实。我们针对现有幻觉评估基准中知识图谱路径和多语言性的不足,提出了一个基于知识图谱的多语言、多跳基准测试——MultiHal,专为生成文本评估设计。作为数据收集流程的一部分,我们从开放域知识图谱中挖掘了14万条知识图谱路径,经过筛选去噪,最终精选出2.59万条高质量子集。基线评估显示,在多语言和多模型场景下,KG-RAG相较于传统问答系统,在语义相似度评分上实现了约0.12至0.36分的绝对提升,充分展现了知识图谱整合的潜力。我们期待MultiHal能推动未来在基于图结构的幻觉缓解与事实核查任务上的研究进展。
代码切换(Code-switching)是一种在同一话语、思维或对话中交替使用不同语言的常见现象。我们认为,人类之所以进行代码切换,是因为他们在谈论某些话题和领域时,使用一种语言比另一种语言感到更为自在。随着知识密集型语言模型的兴起,我们自然而然地提出了下一个问题:模型是否在某些语言X中持有更多关于某些主题的知识?更重要的是,我们是否可以通过改变推理所使用的语言来提升推理能力?为此,我们创造了“语言特定知识”(Language Specific Knowledge, LSK)这一术语来描述这一现象。鉴于民族文化往往与不同语言共同发展,我们采用了文化特定的数据集(这些数据集包含关于文化和社会行为规范的知识)。我们发现,在某些非英语语言中,甚至有时在低资源语言中,语言模型在使用思维链推理时表现更佳。结合先前研究表明语义相似性并不等同于表征相似性,我们假设文化特定的文本在相应语言中更为丰富,使得特定知识仅存在于特定的“专家”语言中。受初步结果的启发,我们设计了一种名为LSKExtractor的简单方法,用于基准测试语言模型中存在的语言特定知识,并在推理过程中加以利用。我们在多种模型和数据集上展示了结果,显示出准确率平均相对提升了10%。我们的研究为开源语言模型的开发做出了贡献,使其更具包容性,更贴近部署的文化和语言背景。