每日精选AI研究论文及翻译
现有的大语言模型(LLM)智能体基准测试主要关注理想化场景下的任务完成度,却忽视了其在实际用户应用场景中的可靠性。以车载语音助手为例,用户常提出不完整或模糊的请求,这种固有不确定性要求智能体必须通过对话、工具调用和策略遵循来应对。我们推出CAR-bench基准测试,用于评估车载助手领域中多轮次工具调用型LLM智能体的一致性、不确定性处理能力和能力认知水平。该测试环境包含LLM模拟用户、领域策略体系以及覆盖导航、生产力、充电和车辆控制等功能的58个互联工具。除标准任务完成度外,CAR-bench还引入两类专项测试:幻觉任务(检验智能体在工具或信息缺失时的极限认知能力)和消歧任务(要求通过澄清询问或内部信息收集来化解不确定性)。基线测试结果显示,所有任务类型中偶尔成功与持续成功之间存在显著差距。即便是前沿推理型LLM,在消歧任务中的持续通过率也不足50%(主要因过早采取行动),在幻觉任务中则频繁违反策略或编造信息以满足用户需求,这凸显了现实场景中对更可靠、更具自我认知能力的LLM智能体的迫切需求。
随着大语言模型(LLM)向自主智能体演进,其现实应用场景显著扩展的同时也引发了新的安全挑战。现有智能体防御机制大多采用强制检查范式,即在智能体生命周期的预设节点强行触发安全验证。本文提出有效的智能体安全应具备内生性与选择性,而非架构分离的强制方案。我们设计出Spider-Sense框架——基于内生风险感知(IRS)的事件驱动型防御框架,使智能体保持潜在警觉状态,仅在实际感知风险时触发防御机制。一旦激活,该框架采用兼顾效率与精度的分级防御策略:通过轻量级相似度匹配快速处理已知威胁模式,同时将模糊案例升级至深度内部推理,从而消除对外部模型的依赖。为建立严谨评估体系,我们构建了S^2Bench基准测试平台,其具备生命周期感知能力,支持真实工具执行与多阶段攻击模拟。大量实验表明,Spider-Sense在保持仅8.3%延迟开销的同时,实现了最优或接近最优的防御性能,其攻击成功率(ASR)与误报率(FPR)均达最低水平。
近期,可验证奖励强化学习(RLVR)在大语言模型(LLM)和视觉语言模型(VLM)中的应用显著提升了复杂任务的推理能力。在RLVR训练过程中,响应长度的增加通常被视为推理能力增长的关键因素。然而,不同RLVR算法在训练期间响应长度的变化模式存在显著差异。为从根本上解释这些差异,本文对主流RLVR算法的构成要素展开深入分析。我们提出了响应长度影响因素的理论分析,并通过大量实验验证了该理论。基于这些理论发现,我们提出了长度无偏序列策略优化(LUSPO)算法。具体而言,我们修正了分组序列策略优化(GSPO)中固有的长度偏差,使其损失函数对响应长度保持无偏性,从而解决了响应长度塌缩问题。我们在数学推理基准和多模态推理场景中进行了广泛实验,LUSPO始终表现出卓越性能。实证结果表明,相较于GRPO、GSPO等现有方法,LUSPO代表了一种新颖的、最先进的优化策略。
当前大多数大型语言模型(LLM)智能体记忆系统依赖于少量静态、人工设计的记忆提取操作。这些固定流程将人类对存储内容和记忆修订方式的先验认知固化其中,导致其在不同交互模式下缺乏灵活性,且在长历史场景中效率低下。为此,我们提出MemSkill方法,将记忆操作重构为可学习、可演化的记忆技能——即从交互轨迹中提取、整合和修剪信息的结构化可复用例程。受智能体技能设计理念启发,MemSkill采用控制器学习选择相关技能子集,并配合基于LLM的执行器生成技能引导的记忆。除学习技能选择策略外,MemSkill还引入设计器模块,定期审查因所选技能导致记忆错误或不完整的困难案例,通过优化现有技能和创建新技能来实现技能集的演化。MemSkill由此形成闭环流程,同步提升技能选择策略与技能集本身的质量。在LoCoMo、LongMemEval、HotpotQA和ALFWorld上的实验表明,MemSkill在任务表现上超越强基线方法,并具备良好的跨场景泛化能力。进一步分析揭示了技能演化机制,为构建更自适应、自演化的LLM智能体记忆管理系统提供了新思路。
当前实时长视频生成方法通常采用流式调优策略,试图通过短上下文(无记忆)教师模型训练长上下文学生模型。这类框架中,学生模型执行长序列生成,却只能获得局限于5秒短窗口的教师监督。这种结构差异导致关键性的师生错配:教师模型因无法获取长期历史信息,难以指导学生模型学习全局时间依赖关系,实质上限制了学生模型的上下文长度。为解决此问题,我们提出上下文强制(Context Forcing)框架,通过长上下文教师模型训练长上下文学生模型。通过确保教师模型感知完整生成历史,我们消除了监督错配问题,从而实现对具备长期一致性能力模型的稳健训练。为实现极端时长(如2分钟)下的计算可行性,我们引入了上下文管理系统,将线性增长的上下文转换为快慢记忆(Slow-Fast Memory)架构,显著降低视觉冗余。大量实验结果表明,本方法可实现超过20秒的有效上下文长度——相较LongLive、Infinite-RoPE等前沿方法提升2至10倍。借助这种扩展上下文,上下文强制框架在长时程中保持卓越的一致性,在各种长视频评估指标上均超越现有最优基线方法。
尽管生成式视频模型已实现卓越的视觉保真度,但其对隐式世界规则的内化与推理能力仍是关键却尚未充分探索的前沿领域。为弥补这一空白,我们推出RISE-Video——首个面向推理的文本-图像到视频生成基准,将评估重点从表层美学转向深度认知推理。该基准包含467个经人工精细标注的样本,涵盖八大严谨类别,为探究模型在常识理解、空间动态及专业领域等多维度的智能水平提供了结构化测试平台。我们提出的多维评估框架包含四项指标:推理对齐度、时序一致性、物理合理性及视觉质量。为进一步支持可扩展评估,还创新性地利用大型多模态模型构建自动化流水线以模拟人类中心化评估。通过对11个前沿TI2V模型的广泛实验,发现现有模型在隐式约束下模拟复杂场景时存在普遍缺陷,这为未来世界模拟生成模型的演进提供了关键洞见。
大型语言模型批评者模型的主动干预常被认为能提升可靠性,但其在部署时的实际影响尚不明确。我们发现,即使具备强劲的离线准确率(AUROC达0.94)的二元LLM批评者,仍可能引发严重的性能衰退:在某模型上导致26个百分点的断崖式下滑,而对另一模型的影响近乎为零。这种差异性表明,仅凭LLM批评者的准确率不足以判断干预是否安全。 我们揭示了干预过程中的"破坏-修复"权衡:干预可能挽救失败轨迹,但也会破坏本应成功的轨迹。基于此发现,我们提出一种预部署测试方法,仅需50项任务的小规模试点即可预估干预的利弊,无需全面部署。在多项基准测试中,该测试均能准确预测结果:对高成功率任务的干预会导致性能下降(0至-26个百分点),而在高失败率的ALFWorld基准上则产生小幅改善(+2.8个百分点,p=0.014)。因此,我们框架的核心价值在于能识别不应干预的场景,在部署前防范严重的性能回退。
现有的大型语言模型(LLM)智能体在需要长程规划的交互环境中表现不佳,主要源于模拟未来状态时的误差累积问题。为此,我们提出ProAct框架,通过两阶段训练范式使智能体内化精准的前向推理能力。首先,我们引入基于环境搜索的轨迹进行监督微调的接地前瞻蒸馏(GLAD)方法,将复杂搜索树压缩为简洁的因果推理链,使智能体无需推理时的搜索计算开销即可学习前瞻逻辑。其次,为提升决策精度,我们提出蒙特卡洛评价器(MC-Critic)——一种即插即用的辅助价值估计模块,可增强PPO、GRPO等策略梯度算法。通过轻量级环境推演来校准价值估计,MC-Critic提供低方差信号以促进稳定策略优化,且无需依赖高成本的基于模型的价值逼近。在随机环境(如2048)和确定性环境(如推箱子)上的实验表明,ProAct能显著提升规划精度。值得注意的是,采用ProAct训练的40亿参数模型不仅超越所有开源基线,更可与最先进的闭源模型媲美,同时展现出对未见过环境的强泛化能力。代码与模型已开源:https://github.com/GreatX3/ProAct
高质量内核对于可扩展AI系统至关重要,而让大语言模型生成此类代码将推动AI发展。然而,训练大语言模型完成该任务需要充足数据、稳健环境,且该过程易受奖励破解和惰性优化影响。在此类情况下,模型可能通过破解训练奖励机制,将表面正确性置于实质加速之上。本文系统研究了强化学习在内核生成中的应用。我们首先设计了KernelGYM——支持奖励破解检测、多轮交互数据收集和长期强化学习训练的分布式GPU环境。基于该环境,我们探索了有效的多轮强化学习方法,发现GRPO中因自我包含导致的策略梯度偏差问题。为此提出TRLOO方法,为多轮强化学习提供无偏优势估计。针对惰性优化问题,我们引入失配校正以提升训练稳定性,并提出基于性能分析的奖励机制和拒绝采样方法。最终训练的Dr.Kernel-14B模型在Kernelbench中达到与Claude-4.5-Sonnet相当的性能。在KernelBench二级测试集上,31.6%的生成内核实现了相对Torch参考版本至少1.2倍的加速,优于Claude-4.5-Sonnet(26.7%)和GPT-5(28.6%)。当跨轮次选择最优候选时,1.2倍加速率进一步提升至47.8%。所有环境、训练代码、模型和数据集均已开源:https://www.github.com/hkust-nlp/KernelGYM。
训练时特权信息(PI)能够使语言模型完成原本无法胜任的任务,成为困难长周期场景中强化学习的有力工具。然而,将基于PI习得的能力迁移至推理时无PI可用的策略仍存在根本性挑战。我们以前沿模型在多轮智能体环境中的蒸馏为研究背景,其中闭源系统通常隐藏内部推理过程仅公开行动轨迹。这使得标准蒸馏流程失效,因为成功行为可观测而推理过程不可见。为此,我们提出π-Distill——一种联合师生目标函数,使用同一模型同步训练PI条件化的教师模型和无条件的学生模型。此外,我们还提出策略上自蒸馏(OPSD),该方法通过强化学习结合学生模型与PI条件化教师模型之间的反向KL惩罚进行训练。实验表明,这两种算法都能有效利用仅含行动信息的PI蒸馏前沿智能体。具体而言,π-Distill及在某些情况下的OPSD,在多个智能体基准测试、模型架构和PI形式中,均优于假设能获取完整思维链监督的行业标准方法(监督微调后接强化学习)。我们通过深入分析补充实验结果,重点刻画了π-Distill实现有效PI学习的核心因素,并明确了OPSD具有竞争力的适用场景。
自回归大语言模型(LLMs)虽具备强大性能,但其固有的序列化解码机制导致推理延迟高、GPU利用率低。推测式解码通过使用快速草稿模型缓解这一瓶颈——该模型生成的输出由目标LLM并行验证,但现有方法仍依赖序列化的自回归草稿生成,限制了实际加速效果。扩散式LLM通过并行生成提供了有前景的替代方案,但当前扩散模型性能通常逊于自回归模型。本文提出DFlash推测解码框架,采用轻量级块扩散模型实现并行草稿生成。通过单次前向传播生成草稿词元,并基于目标模型提取的上下文特征对草稿模型进行条件约束,DFlash能够以高质量输出和高接受率实现高效草稿生成。实验表明,DFlash在多种模型与任务中实现超过6倍的无损加速,较当前最先进的推测解码方法EAGLE-3提速最高达2.5倍。
数学成果检索依然面临挑战:现有工具大多返回整篇论文,而数学工作者与定理证明智能体通常需要定位能解答查询的特定定理、引理或命题。尽管语义搜索技术发展迅速,但其在大型高专业性语料(如研究级数学定理)中的表现仍鲜为人知。本研究基于从arXiv等八个来源提取的920万条定理陈述构建统一语料库——这是目前最大的公开研究级人工撰写定理库,首次系统性地开展大规模语义定理检索研究。我们采用简短自然语言描述作为定理的检索表征,系统分析了表征语境、语言模型选择、嵌入模型及提示策略对检索质量的影响。在由专业数学家编写的定理搜索评估集上,本方法在定理级和论文级检索效果上均显著超越现有基线,证明语义定理搜索在互联网规模下具有可行性和有效性。定理搜索工具详见https://huggingface.co/spaces/uw-math-ai/theorem-search,数据集详见https://huggingface.co/datasets/uw-math-ai/TheoremSearch。
大型语言模型(LLM)在交互环境中的评估日益增多,旨在检验其社会智能。然而现有基准测试通常假设智能体间存在理想化沟通,限制了我们在更真实、非完美场景下诊断LLM能否维持和修复交互的能力。为弥补这一差距,我们提出SocialVeil——一个能够模拟认知差异引发的沟通障碍下社会交互的学习环境。基于对人类交互中沟通挑战的系统文献梳理,SocialVeil引入了三类典型障碍:语义模糊性、社会文化错位和情感干扰。我们还提出两项障碍感知型评估指标——未解决困惑度与相互理解度,用以评估受损沟通下的交互质量。在720个场景中对四款前沿LLM的实验表明,沟通障碍持续削弱模型表现,相互理解度平均下降超45%,困惑度上升近50%。人工评估验证了模拟障碍的保真度(组内相关系数约0.78,皮尔逊相关系数约0.80)。进一步研究表明,适应策略(修复指令与交互式学习)仅能产生有限效果,远未达到无障碍交互水平。本工作推动社会交互环境向真实世界沟通迈进了一步,为探索LLM智能体的社会智能开辟了新路径。
尽管现有基准测试表现强劲,但大型语言模型能否对真正新颖的科学信息进行推理仍不明确。当前多数评估方法针对端到端RAG流程进行评分,其中推理能力与检索机制及工具链选择相互混淆,且评估信号还受到参数记忆和开放网络波动性的干扰。我们推出DeR2这一受控深度研究沙箱,在保留深度搜索核心难点——多步综合、去噪和基于证据的结论形成——的同时,实现了文档 grounding 推理的独立评估。DeR2通过四种机制解耦证据获取与推理过程:仅指令模式、核心概念模式(提供标注概念但无文档)、相关文档模式(仅提供相关文档)以及全文档集模式(相关文档加主题相关干扰项),由此产生可解释的模式差距,将检索损失与推理损失操作化,实现细粒度错误归因。为防止参数泄露,我们采用两阶段验证机制,要求模型在无证据时必然失败,同时确保基于标注概念的可解性。为保证可复现性,每个测试实例均提供冻结文档库(源自2023-2025年理论论文)及专家标注的概念与验证推理链。在多类前沿基础模型上的实验表明存在显著差异和巨大提升空间:部分模型呈现模式切换脆弱性,在全文档集模式下表现反而不如仅指令模式;另一些模型则出现结构性概念误用,能正确提及概念却无法将其作为操作流程执行。
人类很少在显性全身运动层面上规划与物体的全身交互。高层意图(如功能可供性)定义目标,而协调的平衡、接触和操作行为能够从底层物理与运动先验中自然涌现。扩展此类先验是让人形机器人能够在保持物理连贯的全身协调的同时,在不同情境中组合并泛化移动操作技能的关键。为此,我们提出InterPrior——一个通过大规模模仿预训练和强化学习后训练来学习统一生成控制器的可扩展框架。该框架首先将全参考模仿专家蒸馏为多功能的目标条件变分策略,能够从多模态观测数据和高层意图重建运动。虽然蒸馏策略能复现训练行为,但由于大规模人机交互的配置空间庞大,其泛化可靠性不足。为此,我们采用物理扰动的数据增强技术,随后进行强化学习微调以提升对未见目标和初始状态的适应能力。这些步骤共同将重建的潜在技能整合到有效流形中,形成能够超越训练数据泛化的运动先验,例如可融入与未见物体交互等新行为。我们进一步验证了其在用户交互控制中的有效性及其在真实机器人部署中的应用潜力。
随着大语言模型日益自动化处理复杂长周期任务(如氛围编程),监督缺口逐渐显现。尽管模型在执行层面表现出色,但由于用户领域专业知识不足、难以精确表述意图,以及无法可靠验证复杂输出,人类往往难以有效引导模型。这引发了可扩展监督的核心挑战:如何让人类在超越自身规范或验证能力的任务中,实现对人工智能系统的负责任引导。为此,我们提出可扩展交互式监督框架,通过将复杂意图分解为可递归管理的决策树来增强人类监督能力。该系统摒弃开放式提示方式,转而在每个决策节点收集低负担反馈,并递归聚合这些信号形成精确的全局指导。在网页开发任务中的验证表明,该框架能使非专业用户产出专家级产品需求文档,任务对齐度提升54%。关键的是,我们证明该框架可通过强化学习仅基于在线用户反馈进行优化,为人工智能规模化发展过程中保持人类控制权提供了可行路径。
大型语言模型(LLM)在以语言为核心的任务中表现出色,但在智能体场景中,LLM往往难以预测行动后果并适应环境动态,这凸显了基于LLM的智能体对世界建模能力的需求。我们提出强化世界模型学习(RWML),这是一种自监督方法,利用模拟到现实的差异奖励,在文本状态下为基于LLM的智能体学习行动条件化的世界模型。该方法通过将模型生成的模拟下一状态与环境观测到的实际下一状态在预训练嵌入空间中对齐,促使内部世界模拟与实际环境动态保持一致性。与侧重于词元级保真度(即精确复现措辞)而忽视语义等价性的下一状态词元预测不同——后者可能导致模型坍塌——我们的方法提供了更稳健的训练信号,并且实证表明比LLM作为评判者的方法更不易受到奖励破解的影响。我们在ALFWorld和τ^2 Bench数据集上评估该方法,发现相较于基线模型取得了显著提升,且整个过程完全自监督。当与任务成功奖励结合时,本方法在ALFWorld和τ^2 Bench上分别以6.9分和5.7分的优势超越直接使用任务成功奖励的强化学习,同时达到了专家数据训练的性能水平。
数据集蒸馏(DD)旨在从大规模真实数据集中提炼出紧凑的数据子集。尽管现有方法常依赖启发式策略来平衡效率与质量,但原始数据与合成数据之间的本质关系仍待深入探索。本文在坚实理论框架下重新审视基于知识蒸馏的数据集蒸馏方法。我们提出信息度与效用度的概念,分别刻画样本内部的关键信息与训练集中的核心样本。基于这些原理,我们以数学方式定义了最优数据集蒸馏。随后提出InfoUtil框架,在合成蒸馏数据集时平衡信息度与效用度。该框架包含两个核心组件:(1)基于沙普利值归因的博弈论信息度最大化方法,用于从样本中提取关键信息;(2)基于梯度范数的全局重要性样本选择机制,实现原则性效用度最大化。这些组件共同确保蒸馏数据集兼具高信息含量与优化效用。实验表明,在ImageNet-1K数据集上使用ResNet-18架构时,本方法相较此前最优方案的性能提升达6.1%。
视觉语言模型在文本推理方面表现出色,但在细粒度空间理解和连续动作规划上往往存在不足,难以模拟复杂视觉推理所需的动态过程。本研究通过视频生成模型构建视觉推理框架,提出生成帧可作为初始状态与解决方案之间的中间推理步骤。我们在两种不同场景下评估其能力:视觉变化较小的序列离散规划任务"迷宫导航",以及视觉变化显著的连续操作任务"七巧板拼图"。实验揭示三个关键发现:(1)强大的零样本泛化能力:模型在未经特定微调的情况下,对未见数据分布均表现出强劲性能;(2)视觉上下文利用:模型能有效运用智能体图标和七巧板形状等视觉上下文作为显式控制,保持高度视觉一致性,并对未见模式展现稳健的规划适应性;(3)视觉测试时扩展规律:在序列规划任务中观察到测试时扩展定律——增加生成视频长度(视觉推理预算)可提升模型对时空复杂路径的零样本泛化能力。这些发现表明视频生成不仅是媒体工具,更是一种可扩展、可泛化的视觉推理新范式。
强化学习(RL)后训练通过测试时扩展显著提升了大型语言模型(LLM)的推理能力。然而,将该范式通过冗长推理过程扩展到多模态大模型(MLLM)时,对感知能力的提升有限,甚至可能导致性能下降。 我们提出强化注意力学习(RAL),这是一种直接优化内部注意力分布而非输出标记序列的策略梯度框架。通过将优化重点从“生成内容”转向“关注位置”,RAL促进了复杂多模态输入中的有效信息分配与更精准的语义落地。在多种图像与视频基准测试中,RAL相较GRPO及其他基线模型均取得稳定提升。我们进一步提出同策略注意力蒸馏技术,证明迁移潜在注意力行为比标准知识蒸馏能产生更强的跨模态对齐效果。研究结果表明,注意力策略可作为多模态后训练中一种理论严谨且普适的替代方案。
基于大语言模型的多智能体系统展现出卓越的集体智能,其中多智能体记忆机制是实现持续适应的关键。然而,现有记忆设计仍受两大瓶颈制约:(一)因缺乏角色感知定制而导致的内存同质化;(二)过度细粒度记忆条目引发的信息过载。为此,我们提出LatentMem——一种可学习的多智能体记忆框架,能以令牌高效的方式定制智能体专属记忆。具体而言,LatentMem包含以轻量形式存储原始交互轨迹的经验库,以及根据检索经验和智能体特定上下文合成紧凑潜在记忆的记忆组合器。进一步,我们引入潜在记忆策略优化算法,通过潜在记忆将任务级优化信号传递至组合器,促使其生成紧凑高效的表征。在多样化基准测试和主流多智能体框架上的实验表明,LatentMem相比原始设置最高可获得19.36%的性能提升,且无需修改底层框架即可持续优于现有记忆架构。
多模态大语言模型(MLLMs)通过桥接视觉与语言,在多模态感知与推理方面取得了显著进展。然而,现有大多数MLLM主要依赖文本思维链(CoT)进行推理,这限制了其在视觉密集型任务上的效能。近期研究尝试将固定数量的连续隐藏状态作为"视觉思维"注入推理过程以提升视觉性能,但往往以牺牲文本逻辑推理能力为代价。我们认为核心局限在于僵化的预定义推理模式无法根据用户查询自适应选择最优思维模态。为此,我们提出SwimBird——一种可切换推理模式的MLLM,能够根据输入动态选择三种推理模式:(1)纯文本推理;(2)纯视觉推理(以连续隐藏状态作为视觉思维);(3)视觉-文本交错推理。为实现该能力,我们采用混合自回归框架,统一文本思维的下一词元预测与视觉思维的下一嵌入向量预测,并设计系统化的推理模式构建策略,创建了覆盖三种推理模式的多样化监督微调数据集SwimBird-SFT-92K。通过实现灵活的查询自适应模式选择,SwimBird在保持强大文本逻辑能力的同时,显著提升了视觉密集任务的性能。在涵盖文本推理与挑战性视觉理解的多样化基准测试中,SwimBird实现了最先进的性能,较之前固定模式的多模态推理方法展现出稳健的优势提升。
深度研究智能体已成为解决复杂查询的强大系统,而基于大语言模型的检索器在指令遵循与推理方面展现出卓越能力。这引出一个关键问题:基于大语言模型的检索器能否有效助力深度研究智能体工作流?为探究此问题,我们推出SAGE基准测试——一个包含1,200个跨四大学科领域查询请求、覆盖20万篇论文检索库的科学文献检索评估体系。通过评估六种深度研究智能体,我们发现所有系统在处理推理密集型检索任务时均表现不佳。以DR Tulu为基准框架,我们进一步对比了BM25与基于大语言模型的检索器(如ReasonIR和gte-Qwen2-7B-instruct)作为替代搜索工具的效果。令人惊讶的是,由于现有智能体生成的关键词导向子查询存在局限,BM25以约30%的优势显著优于基于大语言模型的检索器。为提升性能,我们提出基于语料库的测试时扩展框架,利用大语言模型增强文档元数据与关键词标注,使现成检索器能更轻松完成检索任务。该策略在简答型与开放型问题上分别实现8%和2%的性能提升。
大语言模型(LLM)的不确定性量化(UQ)是日常LLM应用安全护栏的核心构件。然而,尽管LLM智能体日益应用于高度复杂的任务,当前大多数UQ研究仍聚焦于单轮问答场景。我们认为UQ研究必须转向具有交互能力的智能体现实场景,并需要建立全新的智能体UQ理论框架。本文首次提出涵盖现有多种UQ范式的通用智能体UQ表述,通过该表述揭示既往研究实质是将LLM的UQ视为不确定性累积过程——这种观点在开放世界的交互式智能体中存在根本缺陷。与此相反,我们提出条件性不确定性消减的新视角,通过强调行动的"交互性"显式建模智能体轨迹中的可消减不确定性。基于此视角,我们构建了概念框架,为LLM智能体场景的UQ设计提供可操作指导。最后,我们探讨了智能体UQ在尖端LLM开发和领域专用应用中的实践意义,并指出尚未解决的关键问题。
大型语言模型的快速发展已使其能力从基础对话扩展至高级科学推理。然而,现有生物学基准测试往往未能评估研究人员所需的关键能力:将实验结果与背景知识相融合以得出有意义结论的素养。为此,我们推出BABE(生物学竞技场基准),这一综合性基准旨在评估生物AI系统的实验推理能力。BABE的独特之处在于其构建素材全部来自同行评审的研究论文和真实生物学研究,确保任务能反映实际科学探索的复杂性与跨学科特性。该基准要求模型进行因果推理和跨尺度推断,为评估AI系统能否像执业科学家一样思考提供了严谨框架,从而更真实地衡量其推动生物学研究的潜力。
基于GRPO的强化学习后训练技术已被广泛应用于提升大语言模型在单一推理任务上的表现。然而,实际部署需要模型在多任务中均保持可靠性能。直接对GRPO进行多任务适配往往会导致优化失衡——某些任务主导优化过程,而其他任务则停滞不前。此外,不同任务中提示词产生零优势(进而导致零梯度)的频率差异巨大,这会进一步扭曲各任务对优化信号的实际贡献。为解决这些问题,我们提出新型多任务GRPO(MT-GRPO)算法,其特点在于:(i)动态调整任务权重,显式优化最弱任务表现以促进多任务均衡进步;(ii)引入比率保持采样器,确保任务级策略梯度能反映调整后的权重。在3任务和9任务场景下的实验表明,MT-GRPO在最弱任务准确率上持续超越基线方法。具体而言,相较于标准GRPO和DAPO,MT-GRPO在最弱任务性能上分别实现16-28%和6%的绝对提升,同时保持具有竞争力的平均准确率。此外在3任务场景中,MT-GRPO达到50%最弱任务准确率所需的训练步数减少50%,显著提升了实现跨任务可靠性能的训练效率。
多模态大语言模型近期被应用于通用跨模态检索任务,其中思维链推理技术有效提升了候选结果的重排序性能。然而现有方法仍以语言驱动为主导,依赖静态视觉编码且缺乏对细粒度视觉证据的主动验证能力,这易导致视觉模糊场景下的推测性推理。我们提出V-Retrver证据驱动检索框架,将跨模态检索重构为基于视觉检验的智能体推理过程。该框架使多模态大语言模型能通过外部视觉工具在推理过程中选择性获取视觉证据,执行假设生成与目标验证交替进行的多模态交错推理。为训练这种证据收集式检索智能体,我们采用课程学习策略,融合监督式推理激活、基于拒绝机制的优化以及证据对齐目标的强化学习。在多模态检索基准测试中,该方法在检索准确率(平均提升23.0%)、感知推理可靠性及泛化能力方面均取得显著提升。
策略镜像下降(PMD)通过迭代求解KL正则化的策略改进子问题,为强化学习(RL)提供了理论框架。尽管该方法已应用于训练Kimi K1.5/K2等先进大语言模型(LLM),但理想闭式PMD更新需要可靠的配分函数估计——这在LLM庞大动作空间中仅能获取有限交互数据时构成重大挑战。我们研究了一种名为PMD-mean的实用算法,该算法使用采样策略下的平均奖励逼近对数配分项,并在对数策略空间执行回归。具体而言,我们刻画了PMD-mean的总体解,并证明其隐式优化了具有自适应混合KL-χ²正则项的镜像下降子问题。这种额外的χ²正则化通过约束大幅概率变动,在期望奖励较低时产生更保守的更新,从而增强对有限样本估计误差的鲁棒性。数学推理任务实验表明,PMD-mean以更高的稳定性和时间效率实现了优越性能。这些发现深化了我们对PMD-mean的理解,为LLM强化学习算法的理论改进指明了路径。代码已发布于https://github.com/horizon-rl/OpenKimi。
洗发水算法(Shampoo)是领先的近似二阶优化器之一:其变体曾赢得MLCommons AlgoPerf竞赛,并被证明能生成激活异常值较少、更易压缩的模型。然而,由于内部计算成本高昂,当前应用该算法会显著降低计算速度。本文通过提出\method(分布式加速洗发水算法)迈出重要一步,该实现基于两项新技术:首先,我们证明预条件子块可堆叠为3D张量以显著提升GPU利用率;其次,我们引入牛顿-DB迭代法和切比雪夫多项式逼近作为计算矩阵逆根的新方法。除算法贡献外,我们首次深入分析了矩阵缩放如何关键性影响洗发水算法的收敛性。实践层面,我们的GPU感知实现相比优化后的分布式洗发水算法将优化步速提升最高达4.83倍,而牛顿-DB在所有测试方法中实现了每轮迭代的最低验证困惑度。代码已开源:https://github.com/IST-DASLab/DASH。
检索增强生成(RAG)技术的最新进展已从简单的向量相似度匹配转向结构化感知方法,例如利用知识图谱(KG)和个性化网页排序(PPR)捕捉多跳依赖关系的HippoRAG。然而这些方法存在"静态图谬误":它们依赖于索引阶段确定的固定转移概率。这种刚性机制忽略了边关联性随查询动态变化的特性,导致语义漂移问题——随机游走过程在抵达关键下游证据前易被分流至高连接度的"枢纽"节点。因此,现有模型虽能实现较高的局部召回率,却难以完整检索多跳查询所需的证据链。 针对此问题,我们提出上下文感知遍历框架CatRAG(基于HippoRAG 2架构),将静态知识图谱转化为查询自适应的导航结构。该框架通过三重机制引导随机游走:(1)符号锚定技术,通过注入弱实体约束规范游走路径;(2)查询感知动态边权重调节,动态优化图谱结构以剪枝无关路径,同时增强与查询意图对齐的路径;(3)关键事实段落权重增强,采用成本高效的偏置机制将游走过程结构性地锚定至潜在证据区域。 在四个多跳基准测试上的实验表明,CatRAG持续超越现有最优基线。分析显示,虽然标准召回指标提升有限,但本方法在推理完整性(即无间隙恢复完整证据链的能力)上实现显著突破。这些结果印证了我们的方法有效弥合了局部上下文检索与全链路推理之间的鸿沟。项目资源详见:https://github.com/kwunhang/CatRAG。
旋转位置编码(RoPE)是大语言模型上下文扩展的核心组件。尽管已有多种方法被提出用于适配更长上下文的RoPE,但其指导原则通常可归为两类:(1)分布外泛化,通过缩放RoPE频率以适应未见过位置;(2)语义建模,主张基于RoPE计算的注意力分数应始终优先关注语义相似的标记。本研究通过极简干预策略CoPE统一了这两个看似独立的目标:即对RoPE低频分量进行软截断。CoPE不仅能消除分布外异常值并优化语义信号,还可避免硬截断引发的频谱泄漏。大量实验表明,仅需对RoPE施加我们的软截断策略,即可在长达256k的上下文范围内获得持续提升的性能增益,这验证了我们的理论分析,并使CoPE成为长度泛化领域的最新标杆。相关代码、数据及模型已开源:https://github.com/hrlics/CoPE。
我们提出Infinite-World——一种鲁棒的交互式世界模型,能在复杂现实场景中保持超过1000帧的连贯视觉记忆。现有世界模型虽能基于完美真值的合成数据高效优化,但由于噪声姿态估计和视角重访稀缺,缺乏针对真实视频的有效训练范式。为弥补这一差距,我们首先引入分层无姿态记忆压缩器(HPMC),通过递归蒸馏历史潜变量为固定容量的表征。通过将压缩器与生成主干网络联合优化,HPMC使模型能够以有限计算成本自主锚定遥远过去的生成内容,无需显式几何先验。其次,我们提出不确定性感知动作标注模块,将连续运动离散化为三态逻辑。该策略在最大化利用原始视频数据的同时,防止确定性动作空间受噪声轨迹污染,确保鲁棒的动作-响应学习。此外,基于预研实验的启示,我们采用重访密集微调策略,利用仅30分钟的紧凑数据集高效激活模型的长程闭环能力。大量实验(包括客观指标和用户研究)表明,Infinite-World在视觉质量、动作可控性和空间一致性方面均实现卓越性能。
蒸馏自回归扩散模型虽能实现实时短视频合成,但在生成长序列时存在严重的误差累积问题。现有测试时优化方法虽对图像或短片段有效,但我们发现由于奖励景观的不稳定性及蒸馏参数的超敏感性,这些方法难以缓解长序列生成中的漂移现象。为此,我们提出无需训练的新型替代方案——测试时校正。该方法以首帧作为稳定参考锚点,通过校准采样轨迹中的中间随机状态实现修正。大量实验表明,本方案可无缝适配多种蒸馏模型,以可忽略的开销显著延长生成序列长度,在30秒生成基准上达到与资源密集型训练方法相当的质量水平。
随着大语言模型通过扩展模型与数据规模取得显著实证成果,预训练的重要性日益凸显,但其计算成本已高昂到阻碍快速发展的程度。尽管已有大量耗费巨量算力开发的预训练模型可用,一个现实中的根本性问题仍未被充分探索:能否利用现有小型预训练模型来加速大模型的训练?本文提出一种"后训前导"范式,使大语言模型能够在早期训练阶段和浅层网络显式学习深层知识。其核心思想是:在训练初期,使用已完成预训练(即处于后期训练阶段)模型的深层表征来指导目标模型的浅层网络。我们揭示了驱动该范式有效的两大机制:后阶段至前阶段学习与深层至浅层学习。这些机制在显著加速训练收敛的同时,持续增强模型的语言建模能力与下游任务性能,实现更快速且更优越的训练效果。在14亿和70亿参数模型上的大量实验验证了该范式的效率与有效性。值得注意的是,当基于Pile数据集训练14亿参数模型时,即使使用比目标模型参数少10倍的预训练模型,本方法仍能实现最高1.6倍的加速效果,且下游任务准确率提升近5%。
低秩自适应(LoRA)是当前高效微调大语言模型的主流方法。基于此范式,近期研究提出了多种初始化策略与架构改进方案,据称在原始LoRA基础上实现了显著提升。然而这些改进成果往往在固定或有限调参的设定下得到验证,尽管神经网络对训练配置的敏感性已是公认事实。本研究通过大规模超参数搜索,系统性地重新评估了四种代表性LoRA变体与原始LoRA方法。在涵盖数学推理与代码生成的多尺度模型实验中,我们发现不同LoRA方法适配各异的学习率区间。关键的是,一旦学习率经过恰当调整,所有方法均能达到相近的峰值性能(差异在1-2%以内),仅表现出细微的秩依赖特性。这些结果表明原始LoRA仍是具有竞争力的基准方法,而在单一训练配置下报告的改进可能并非方法本身的优势体现。最终,二阶分析将不同最优学习率区间的成因归咎于最大赫森矩阵特征值的差异,这与经典学习理论相吻合。
先进的自回归视频生成模型虽已提升视觉保真度与交互性,但注意力机制的二次复杂度仍是高效部署的主要瓶颈。现有稀疏注意力方案在双向模型中表现良好,但我们发现其应用于自回归模型时会导致显著性能下降,原因有二:分块生成的孤立处理方式以及对历史信息上下文利用不足。基于此,我们提出首个面向自回归视频生成模型的稀疏注意力方案Light Forcing。该方法通过分块感知增长机制量化评估每个数据块的贡献度,从而确定其稀疏分配策略。这种渐进式稀疏度提升策略使当前生成块能够继承早期块的先验知识。此外,我们引入分层稀疏注意力机制,以由粗到细的方式捕捉有价值的历史上下文和局部上下文。这种帧级与块级的双层掩码选择策略可自适应处理多样化注意力模式。大量实验表明,本方法在质量指标(如VBench得分84.5)和效率指标(如端到端加速1.2~1.3倍)上均优于现有稀疏注意力方案。结合FP8量化和LightVAE,Light Forcing在RTX 5090 GPU上进一步实现2.3倍加速与19.7帧/秒的生成速度。代码将发布于https://github.com/chengtao-lv/LightForcing。
我们在有限交互预算下评估语言模型探索交互环境的能力。本文提出三种可调控探索难度的参数化任务,涵盖连续与离散环境。研究发现,当前最先进的模型普遍存在系统性探索不足和次优解问题,其表现往往显著逊于简单的探索-利用启发式基线方法,且随着预算增加呈现弱扩展性。最后我们研究两种轻量级干预措施:将固定预算拆分为并行执行(尽管理论分析显示该措施对我们的任务无增益,但实际性能却意外提升),以及定期总结交互历史(该方法能保留关键发现并进一步提升探索效率)。
基于验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的关键范式。现有RLVR方法(如GRPO及其变体)大多通过限制策略差异(如裁剪似然比)来确保稳定更新。本文提出一个统一的裁剪框架,通过广义策略差异概念统括现有方法,该框架不仅涵盖似然比和KL散度,还可扩展至其他度量指标。该框架为系统分析不同策略差异度量如何影响探索与性能提供了理论基石。我们进一步提出KL3估计量——一种方差缩减的KL散度蒙特卡洛估计方法,并将其作为关键策略差异约束。理论证明表明,基于KL3的约束在数学上等效于非对称比率裁剪,这种裁剪会将概率质量重新分配至高置信度动作,在保持GRPO类方法简洁性的同时增强探索能力。数学推理基准测试表明,将KL3估计量融入GRPO可同时提升训练稳定性与最终性能,这凸显了原则性策略差异约束在策略优化中的重要性。
视觉语言模型(VLM)在图像地理位置识别方面展现出强大能力,而前沿多模态大推理模型(MLRM)进一步强化了这一能力。这引发了严重的隐私风险——这些广泛可用的模型可能被滥用于从随意分享的照片中推断敏感位置,其精确度常能达到街道级别,甚至可能超出分享者同意或意图公开的细节范围。尽管近期研究提出通过全面限制地理位置披露来应对此风险,但这些措施未能区分合理的地理位置应用与恶意行为。相反,视觉语言模型应通过分析图像内容要素来维持情境完整性,从而确定适当的信息披露层级,实现隐私保护与实用性的平衡。为评估模型遵循情境完整性的能力,我们提出VLM-GEOPRIVACY基准测试,该测试要求视觉语言模型解读真实图像中的潜在社会规范与情境线索,并确定恰当的位置信息披露程度。通过对14个主流视觉语言模型的评估发现,尽管它们能精确识别图像地理位置,但其表现与人类隐私期望严重不符:模型常在敏感情境下过度披露信息,且易受基于提示词的攻击。我们的研究结果表明,多模态系统需要引入结合情境化隐私推理的新设计原则。
我们研究了音频语言模型中的两个基础性问题:(1)如何设计能同时服务于理解与生成的音频表征中间件;(2)如何构建具备小样本与零样本泛化能力的音频基础模型,使其达到类似大语言模型的通用性。为此我们做出两项核心贡献:首先提出ReasoningCodec离散音频编解码器,将音频分解为(i)推理令牌——编码文本对齐的高层分析与规划表征,用于音频理解与分层生成;(ii)重建令牌——编码语义丰富的声学线索,实现高保真波形重建。该设计在理解性能上媲美强连续表征,同时在生成质量与重建保真度方面超越现有离散表征方法。其次,我们构建了文本与音频统一的自回归架构,结合多阶段训练与多任务数据构建方案。基于此框架训练的UniAudio 2.0模型使用1000亿文本令牌与600亿音频令牌,在语音、声效及音乐等广泛任务中,不仅域内评估表现优异,更在未见任务上展现出强大的小样本与零样本泛化能力。演示资源、代码与模型权重详见https://dongchaoyang.top/UniAudio2Demo/。
视频运动迁移技术旨在根据文本提示生成视觉内容,同时传递参考视频中观测到的运动模式。现有方法主要采用扩散变换器(DiT)架构。为实现理想运行速度,部分研究尝试加速DiT计算,但未能解决结构性低效问题。本文发现并消除了早期工作中的两类计算冗余:运动冗余源于通用DiT架构未考虑帧间运动具有小幅度平滑特性;梯度冗余产生于忽略沿扩散轨迹的梯度缓变现象。针对运动冗余,我们通过掩码注意力层将交互权重计算限制在局部邻域,避免对遥远图像区域进行不必要计算。为利用梯度冗余,设计了重用历史扩散步骤梯度、跳过无效梯度计算的优化方案。实验表明,FastVMT在保持生成视频视觉保真度与时序一致性的前提下,平均实现3.43倍加速效果。
SAM3D技术虽能实现复杂场景的可扩展开放世界三维重建,但其部署受限于极高的推理延迟。本研究首次系统剖析其推理动态特性,发现通用加速策略在此场景下表现脆弱。我们证明这些失效源于对管道固有多层次异构性的忽视:形状与布局的运动学差异性、纹理优化的内在稀疏性,以及几何结构的频谱异质性。为此,我们提出Fast-SAM3D——一种免训练框架,通过动态计算与实时生成复杂度对齐实现加速。该框架集成三项异构感知机制:(1)模态感知步长缓存,将结构演化与敏感布局更新解耦;(2)联合时空令牌雕刻,聚焦高熵区域优化;(3)频谱感知令牌聚合,自适应调整解码分辨率。大量实验表明,Fast-SAM3D在保持可忽略保真度损失的同时,实现最高2.67倍的端到端加速,为高效单视图三维生成树立了新的帕累托前沿。代码已发布于https://github.com/wlfeng0509/Fast-SAM3D。
当前视频生成模型主要依赖将像素空间视频压缩为潜在表征的视频自编码器。然而现有视频自编码器存在三大局限:(1) 固定速率压缩导致简单视频的令牌浪费;(2) 刚性CNN架构无法实现可变长度潜在建模;(3) 确定性解码器难以从压缩潜在表征中还原合适细节。为此,我们提出一维扩散视频自编码器(One-DVA),这是一个基于Transformer的自适应一维编码与扩散解码框架。编码器采用基于查询的视觉Transformer提取时空特征并生成潜在表征,同时通过可变长度丢弃机制动态调整潜在序列长度。解码器是以潜在表征为条件输入的像素空间扩散Transformer,用于重建视频。通过两阶段训练策略,One-DVA在相同压缩比下实现了与3D-CNN VAE相当的重建指标性能。更重要的是,该框架支持自适应压缩,因而能实现更高压缩比。为更好支持下游潜在生成任务,我们进一步对One-DVA潜在分布进行生成建模正则化,并对其解码器进行微调以减轻生成过程引起的伪影。
神经音频编解码器是现代对话语音技术的核心,能将连续语音转换为可由大语言模型处理的离散标记序列。然而现有编解码器通常以固定帧率运行,在时间上均匀分配标记并产生过长的序列。本研究提出DyCAST动态字符对齐语音标记器,通过软性字符级对齐和显式时长建模实现可变帧率标记化。DyCAST在训练过程中学习将标记与字符级语言单元关联,并在解码时支持无需对齐的推理,直接控制标记时长。为提升低帧率下的语音重建质量,我们进一步引入检索增强解码机制,在不增加比特率的情况下增强重建保真度。实验表明,DyCAST在使用显著少于固定帧率编解码器的标记数量时,仍能实现具有竞争力的语音重建质量与下游任务性能。代码与模型检查点将公开于https://github.com/lucadellalib/dycast。
随着语言模型日益应用于自主任务,突发性错位对人工智能安全构成威胁。本文通过构建覆盖11个领域的不安全数据集微调大语言模型群体,在无关用户指令集上评估其有无后门触发器的表现。基于Qwen2.5-Coder-7B-Instruct和GPT-4o-mini的评估实验揭示两个关键发现:(i) 后门触发器使77.8%领域的错位率上升(平均下降4.33分),其中高风险金融建议和有害法律建议领域影响最大;(ii) 领域脆弱性差异显著,从微调后输出错误数学答案的0%错位率,到微调血腥电影知识库的87.67%错位率。 在章节~sec:research-exploration的进一步实验中,我们通过多个研究问题发现:成员推理指标(尤其是经非指令微调基模型校准后)能有效预测广泛错位程度;同时探究了不同数据集微调模型间的错位现象,分析从单一突发性错位模型提取的方向向量能否泛化至其他模型。据我们所知,本研究首次建立了按领域划分的突发性错位分类评级体系,对AI安全和后训练具有启示意义,并标准化了错位数据集构建方法。所有代码和数据集已在GitHub开源:https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
扩散大语言模型(dLLMs)在非自回归解码范式下展现出卓越的长上下文处理能力。然而,双向全注意力机制的巨大计算成本限制了推理效率。虽然稀疏注意力具有潜力,但现有方法仍存在不足。这源于需要预测尚未解码词元的注意力重要性,而扩散过程中未掩码词元的位置是未知的。本文提出Focus-dLLM,一种专为精准高效的长上下文dLLM推理设计的无训练注意力稀疏化框架。基于相邻步骤间词元置信度强相关性的发现,我们首先设计了一种历史置信度引导的指示器来预测未掩码区域。在此基础上,提出感知注意力汇的剪枝策略,在保留高影响力注意力汇的同时,精准估计并消除冗余注意力计算。为进一步降低开销,该策略通过利用观测到的跨层一致性,在多个层级间复用已识别的注意力汇位置。实验结果表明,在32K上下文长度下,本方法可实现超过29倍的无损加速。代码已开源于:https://github.com/Longxmas/Focus-dLLM
基于大语言模型的多智能体系统虽能实现强表达力的智能体推理,但存在扩展成本高昂、时序状态转移模拟校准性差的问题;而经典基于智能体的模型虽具可解释性优势,却难以整合细粒度个体行为信号与非稳态行为。我们提出物理智能体模型,将推理过程转移至行为一致的智能体集群:状态专用符号智能体编码机制化转移先验,多模态神经转移模型捕捉时序与交互动态,不确定性感知的认知融合则生成校准后的集群级转移分布。个体智能体在局部约束下随机实现状态转移,从而将群体推理与实体级变异性解耦。我们进一步提出ANCHOR聚类策略,基于跨情境行为响应与新型对比损失函数,将大语言模型调用量降低6-8倍。在公共卫生、金融与社会科学的实验中,本模型在事件时间精度与校准度上持续优于机制模型、神经模型及大语言模型基线。通过以不确定性感知的神经符号融合为核心重构生成式智能体模型,物理智能体模型为大语言模型的可扩展校准仿真建立了新范式。