每日精选AI研究论文及翻译
基于验证器奖励的强化学习(RLVR)已成为在推理任务上对大型语言模型进行后训练时广泛采用的方法,其中以GRPO及其变体为代表的分组方法获得了普遍应用。这类方法依赖组间相对优势估计来避免学习评判器,但其理论特性仍鲜为人知。 本研究揭示了分组式强化学习的一个根本问题:组间相对优势估计量相对于真实(期望)优势存在固有偏差。我们首次通过理论分析证明,该系统性地低估困难提示的优势值,同时高估简单提示的优势值,导致探索与利用的失衡。为解决该问题,我们提出历史感知自适应难度加权(HA-DW)方案,该方案通过动态难度锚点与训练状态自适应调整优势估计权重。在五个数学推理基准上的理论分析与实验均表明,HA-DW在融入GRPO及其变体后能持续提升性能。我们的研究结果表明,修正有偏的优势估计对于实现稳健高效的RLVR训练至关重要。
人工智能代理融入经济市场,从根本上改变了战略互动的格局。我们通过三个经典博弈论场景——议价(资源分配)、谈判(非对称信息交易)和劝说(策略性信息传递),研究了技术选择范围扩展对经济的影响。研究发现,仅增加AI代理的选择就足以显著改变均衡收益与监管结果,往往激励监管机构主动研发并发布新技术。相反,我们识别出名为"毒苹果效应"的策略现象:行为者可能发布一项新技术(其自身与对手最终皆不采用),仅为了操纵监管机构作出有利于己方的市场设计选择。这种策略性发布以牺牲对手利益和监管公平目标为代价,提升了发布者的福利水平。我们的研究结果表明,静态监管框架易受技术扩张的操纵,亟需建立能适应AI能力演进的动态市场设计机制。
让大型语言模型(LLMs)在多轮交互中有效使用工具,是构建强大自主智能体的关键。然而,获取多样化且真实的多轮工具使用数据仍面临巨大挑战。本研究提出了一种创新的文本驱动范式:我们发现文本语料库天然蕴含丰富的多步骤问题解决经验,可作为多轮工具使用任务中尚未开发、可扩展且真实的数据源。基于此,我们提出了GEM数据合成框架,通过相关性筛选、工作流与工具提取、轨迹锚定及复杂度优化四阶段流程,实现从文本语料中生成并提取多轮工具使用轨迹。为降低计算成本,我们进一步通过监督微调训练了专用轨迹合成器,将复杂的生成流程蒸馏为高效的端到端轨迹生成器。实验表明,GEM-32B模型在BFCL V3多轮基准测试中实现了16.5%的性能提升。我们的模型在部分场景下甚至超越了使用τ-bench(航空与零售领域)内部数据训练的模型,凸显了文本驱动合成范式带来的卓越泛化能力。值得注意的是,轨迹合成器在保持全流程生成质量的同时,显著降低了推理延迟与成本。
可验证奖励强化学习(RLVR)在数学等推理密集型领域取得了显著进展。然而,由于缺乏标准答案,开放生成任务的优化仍面临挑战。虽然基于量规的评估为验证提供了结构化代理,但现有方法存在可扩展性瓶颈和评价标准粗糙的问题,导致监督天花板效应。为此,我们提出了一种自动化的"由粗到精"量规生成框架。通过融合原则指导的生成、多模型聚合和难度演进机制,该方法能构建具有高区分度的综合评价标准,精准捕捉生成内容的细微差异。基于此框架,我们推出了RubricHub——一个涵盖多领域的大规模数据集(约11万条)。我们通过包含基于量规的拒绝采样微调(RuFT)和强化学习(RuRL)的两阶段后训练流程验证其有效性。实验结果表明,RubricHub能带来显著性能提升:经过后训练的Qwen3-14B模型在HealthBench上达到69.3分的顶尖水平,超越了GPT-5等前沿闭源模型。代码与数据即将开源发布。
个性化大语言模型通过适应用户个体特征来提升用户满意度,但个性化过程可能无意间扭曲事实推理。我们发现,当个性化大语言模型处理事实性查询时,会出现模型生成答案与用户历史偏好而非客观事实保持一致的现象,这种由个性化引发的幻觉会降低事实可靠性,并可能传播错误信念,其根源在于个性化表征与事实表征之间的纠缠效应。为解决该问题,我们提出事实保持个性化导向(FPPS),一种轻量级的推理时干预方法,能在保持个性化行为的同时减轻个性化导致的事实扭曲。我们还推出了PFQABench——首个专门用于评估个性化场景下事实性与个性化问答联合表现的基准测试。在多类大语言模型架构和个性化方法上的实验表明,FPPS在保持个性化性能的同时显著提升了事实准确性。
视觉-语言-动作(VLA)模型已成为处理多样化操作任务的重要通用机器人策略,其传统方法依赖于通过视觉语言模型(VLM)嵌入将多模态输入直接转换为动作。近期研究引入了显式中间推理机制,如子任务预测(语言)或目标图像合成(视觉),以指导动作生成。然而,这些中间推理往往具有间接性,且固有限制了传递精确动作执行所需完整细节信息的能力。对此,我们提出最有效的推理形式应是在动作空间内直接进行推演。我们引入动作思维链(ACoT)范式,将推理过程构建为引导最终策略的粗粒度动作意图结构化序列。本文提出ACoT-VLA这一实现ACoT范式的新型架构,具体引入两个互补组件:显式动作推理器(EAR)与隐式动作推理器(IAR)。前者通过提出粗粒度参考轨迹作为显式动作级推理步骤,后者则从多模态输入的内部表征中提取潜在动作先验,共同构成ACoT以指导下游动作头实现具身策略学习。在真实环境与仿真环境中的大量实验表明,我们所提方法在LIBERO、LIBERO-Plus和VLABench上分别达到98.5%、84.1%和47.4%的优异性能。
基于强化学习的智能搜索代理使大语言模型能够通过动态规划与外部搜索解决复杂问题。尽管该方法通过大规模强化学习优化的智能体策略显著提升了准确率,但我们发现其可靠性存在关键缺陷:这些智能体无法识别自身推理边界,即便在证据不足或推理达到极限时也极少承认"我不知道"(IDK)。这种可靠性的缺失往往导致生成看似合理但不可靠的答案,为众多实际场景带来重大风险。为此,我们提出边界感知策略优化(BAPO),这是一种新型强化学习框架,旨在培养可靠的边界意识而不牺牲准确性。BAPO引入两大核心组件:(1)基于分组的边界感知奖励机制,仅在推理达到极限时鼓励模型输出IDK响应;(2)自适应奖励调节器,在早期探索阶段策略性暂停该奖励,防止模型将IDK作为捷径进行利用。在四个基准测试上的大量实验表明,BAPO能显著提升智能搜索代理的整体可靠性。
近年来,基于文本提示的人体运动生成取得了显著进展。然而,由于缺乏细粒度的部位级运动标注,现有方法主要依赖序列级或动作级描述,这限制了对单个身体部位的可控性。本研究利用大语言模型的推理能力,构建了具有原子化、时序感知的部位级文本标注的高质量运动数据集。与先前仅提供固定时间段同步部位描述或仅包含全局序列标签的数据集不同,我们的数据集以精细时间分辨率捕捉异步且语义独立的部位运动。基于此数据集,我们提出了一种基于扩散模型的部位感知运动生成框架FrankenMotion,其中每个身体部位由其具有时序结构的文本提示独立引导。据我们所知,这是首个提供原子化时序感知部位级运动标注,并实现兼具空间(身体部位)与时间(原子动作)控制能力的运动生成模型的研究。实验表明,FrankenMotion在适配我们设定并重新训练的基线模型中表现最优,且能组合生成训练中未见的运动。我们的代码与数据集将在论文发表时公开。
部署大型语言模型面临两个相互关联的挑战:(1) 监控——在流量和领域发生漂移时评估模型在哪些方面表现不佳;(2) 改进——通过优先获取数据来弥补最大的性能差距。我们验证了推理时信号能否在领域偏移下估计分片级准确率。针对每个响应,我们基于最终层的下一词元概率(来自top-k对数概率)计算输出熵分布,并用十一项统计量进行概括。通过轻量级分类器预测实例正确性,再对预测概率取平均即可获得领域级准确率估计。我们在十个STEM推理基准上开展评估(包含详尽的训练/测试组合,k取{1,2,3,4}的所有"10选k"组合),覆盖六个系列的九款LLM(参数量3B-20B)。估计值往往能跟踪预留基准准确率,多个模型呈现出近乎单调的领域排序。因此,输出熵分布可作为可扩展监控和数据采集目标定位的有效信号。
监督微调(SFT)是使大语言模型(LLMs)与人类意图对齐的关键后训练策略。然而,传统SFT常因强制模型对齐单一参考答案而忽略语言的一对多特性,导致模型过度拟合非核心表达。尽管实证分析表明引入多参考答案可缓解此问题,但高昂的数据与计算成本要求我们进行策略性转变:将重点从追求答案多样性转向优先解决单参考过拟合。为实现这一目标,我们揭示了词元概率与语义重要性之间的内在联系:高概率词元承载核心逻辑框架,而低概率词元多为可替换表达。基于此发现,我们提出ProFit方法,通过选择性掩码低概率词元来防止模型陷入表层过拟合。大量实验证实,ProFit在通用推理和数学基准测试中均稳定优于传统SFT基线方法。
未来运动表征(如光流)在控制和生成任务中具有重要价值。然而,预测具有泛化能力的空间稠密运动表征仍是核心挑战,且从嘈杂的真实世界数据中学习此类预测的研究尚属空白。我们提出FOFPred——一种采用统一视觉语言模型(VLM)与扩散架构的新型语言条件光流预测模型。这种独特组合通过像素级生成保真度实现了强大的多模态推理能力,用于未来运动预测。我们的模型基于网络规模的人类活动数据进行训练,这类数据具有高度可扩展性但结构松散。为从嘈杂的视频-文本数据中提取有效信号,我们采用了关键的数据预处理技术,并结合具有强大图像预训练能力的统一架构。训练完成的模型可进一步应用于控制和生成两大下游任务。在语言驱动场景下进行的机器人操控和视频生成评估表明,FOFPred具有跨领域通用性,印证了统一VLM-扩散架构的价值,以及从多样化网络数据中进行可扩展学习对光流预测的重要意义。
三维形状生成技术近期取得了显著进展,但现有方法大多依赖干净、无遮挡且分割良好的输入数据,而现实场景很少能满足这些条件。我们提出ShapeR这一创新方法,可从随意拍摄的图像序列中生成条件化三维物体形状。该方法通过现成的视觉-惯性SLAM系统、三维检测算法和视觉语言模型,为每个物体提取稀疏SLAM点云、多视角位姿图像及机器生成描述。我们采用经修正的流式变换器,通过有效融合这些模态数据来生成高精度三维度量形状。为应对随意拍摄数据带来的挑战,我们运用了动态组合增强、涵盖物体与场景级数据的课程训练方案,以及背景杂波处理策略。此外,我们构建了包含7个真实场景178个野外物体的新评估基准集,并配有几何标注。实验表明,在此挑战性设定下,ShapeR显著优于现有方法,其倒角距离指标较当前最优技术提升2.7倍。
大型语言模型已在多领域展现出卓越能力,但复杂推理的底层机制仍不明确。近期推理模型在复杂认知任务上表现优于同等规模的指令微调模型,这通常归因于通过更长思维链实现的扩展计算。本文发现,增强的推理能力不仅源于扩展计算,更来自模拟多智能体式互动——即"思维社会"——这种机制通过具有鲜明个性特征与领域专长的内部认知视角之间的多样化辩论来实现。通过对推理轨迹的定量分析和机制可解释性研究,我们发现DeepSeek-R1与QwQ-32B等推理模型比指令微调模型展现出更显著的视角多样性,在推理过程中会激活更多涉及异质性个性与专业特征的内部冲突。这种多智能体结构既体现于问答、视角转换、矛盾观点调和等对话行为,也呈现为激烈交锋对话中的社会情感角色,共同构成了推理任务中的准确率优势。受控强化学习实验表明,当仅以推理准确率作为奖励时,基础模型会增强对话行为;而采用对话支架对模型进行微调,能比基础模型更快提升推理能力。这些发现表明思维的社会化组织能有效拓展解空间的探索范围。我们认为推理模型建立了人类群体集体智能的计算平行体——当多样性被系统化组织时,能催生更优异的问题解决能力,这为通过智能体组织利用群体智慧揭示了新的可能性。
物理原理是实现逼真视觉模拟的基础,但在基于Transformer的视频生成领域仍存在显著忽视。这一差距凸显了当前技术在渲染刚体运动——经典力学核心准则方面的根本局限。尽管计算机图形学与物理模拟器能轻松运用牛顿公式建模此类碰撞,现代预训练-微调范式却在像素级全局去噪过程中抛弃了物体刚性的概念。即使在训练后优化阶段,完全正确的数学约束也被视为次优解(即条件),从根本上限制了生成视频的物理真实感。基于这些考量,我们首次提出面向视频生成模型的物理感知强化学习范式,该范式能在高维空间中直接强化物理碰撞规则,确保物理知识被严格应用而非仅作为条件使用。随后,我们将该范式扩展为名为模仿-发现循环(MDcycle)的统一框架,在充分保留模型利用物理基础反馈能力的同时实现大规模微调。为验证方法有效性,我们构建了新的基准测试集PhysRVGBench,并通过大量定性与定量实验全面评估其性能。
尽管图形用户界面智能体在明确指令和任务完成场景下表现出色,但实际应用需要其与用户更复杂的隐性意图保持对齐。本研究提出个性化GUI智能体的分层隐性意图对齐框架(PersonalAlign),该新型智能体任务要求智能体利用长期用户记录作为持久上下文,解析模糊指令中被省略的偏好,并根据用户状态预判潜在操作习惯以提供主动协助。为推进该研究,我们构建了AndroidIntent基准测试平台,通过长期用户记录推理评估智能体解析模糊指令和提供主动建议的能力。我们从20万条跨用户长期记录中标注了775项用户特定偏好和215种操作习惯用于评估。此外,我们提出分层意图记忆智能体(HIM-Agent),该架构通过持续更新的个人记忆库分层管理用户偏好与操作习惯以实现个性化。最终我们在AndroidIntent上评估了包括GPT-5、Qwen3-VL和UI-TARS在内的多类GUI智能体,实验表明HIM-Agent将任务执行准确率和主动服务成功率分别显著提升15.7%和7.3%。
前沿语言模型的能力正在快速提升,因此我们需要更强的防护机制来防止恶意行为者滥用日益强大的系统。已有研究表明激活探针可能是一种有效的滥用防控技术,但我们发现一个关键挑战:探针在面对重要生产环境分布变化时泛化能力不足。特别是从短上下文输入转向长上下文输入时,现有探针架构表现不佳。我们提出了几种能应对长上下文分布变化的新型探针架构。 我们在网络攻防领域评估了这些探针,测试其针对多轮对话、静态越狱和自适应红队攻击等生产环境相关变化的鲁棒性。结果表明,虽然多最大值机制能应对上下文长度问题,但要实现广泛泛化仍需结合架构优化和多样化分布训练。此外,由于探针的计算效率优势,将其与提示分类器结合能以较低成本实现最优准确率。 这些研究成果已成功应用于Gemini(谷歌前沿语言模型)用户端实例的滥用防控部署。最后,我们通过AlphaEvolve在探针架构搜索和自适应红队攻击方面取得了初步积极进展,表明部分AI安全研究已可实现自动化升级。
基于大语言模型的自主智能体展现出多维度能力,可为经济生产做出实质性贡献。然而现有基准测试仍聚焦于单一智能能力,未能捕捉长周期现实场景。此外,依赖人工反馈的现实任务创建了可扩展性瓶颈,阻碍了自动化推演收集与评估。为弥补这一差距,我们推出AgencyBench——一个源自日常AI使用场景的综合基准测试框架,在32个现实场景中评估6项核心智能能力,包含138项具有明确查询要求、交付标准和评分细则的任务。这些场景平均需要90次工具调用、100万token和数小时执行时间才能完成。为实现自动化评估,我们采用用户模拟智能体提供迭代反馈,并通过Docker沙箱进行基于视觉与功能指标的评估。实验表明闭源模型显著优于开源模型(48.4% vs 32.1%)。进一步分析揭示了模型在资源效率、反馈驱动自我修正及特定工具使用偏好方面的显著差异。最后,我们探究了智能体框架的影响,发现专有模型在其原生生态系统中表现更优(如通过Claude-Agent-SDK运行的Claude-4.5-Opus),而开源模型则在不同执行框架中呈现独特性能峰值,暗示其存在针对特定框架的优化潜力。AgencyBench作为下一代智能体的关键测试平台,凸显了模型架构与智能体框架协同优化的必要性。我们相信这项工作为自主智能体的未来发展指明了方向,完整基准测试与评估工具包已发布于https://github.com/GAIR-NLP/AgencyBench。
大型视觉语言模型(LVLM)已展现出卓越能力,但其在多图像理解与推理方面的熟练度仍亟待探索。现有基准虽已启动对多图像模型的评估,但对其核心缺陷及成因的系统性分析尚属空白。本研究推出MIMIC(多图像模型洞察与挑战)基准,旨在严格评估LVLM的多图像处理能力。通过MIMIC进行的诊断实验揭示出普遍性问题:LVLM常无法跨图像整合信息,且难以同时追踪或关注多个概念。针对这些缺陷,我们提出两项创新性互补方案。在数据层面,我们设计了一种程序化数据生成策略,将单图像标注合成为具有针对性的丰富多图像训练样本;在优化层面,我们通过分析层级注意力模式,推导出专为多图像输入定制的注意力掩码方案。实验表明,该方法显著提升了跨图像聚合能力,并在现有多图像基准测试中超越先前最优成果,实现多任务性能全面提升。相关数据与代码已公开于https://github.com/anurag-198/MIMIC。
近期,具身化大语言模型(LLMs)的研究进展使其成为能够跨领域推理与行动的通用规划器。然而现有智能体基准测试多聚焦于符号化或弱实体化环境,导致其在物理约束下的现实领域性能尚未得到充分探索。我们推出AstroReason-Bench——一个用于评估空间规划问题(SPP)中智能体规划能力的综合基准测试集。该问题族具有多目标异构、物理约束严格、决策跨度长等高风险特性。AstroReason-Bench整合了地面站通信、敏捷对地观测等多种调度机制,并提供统一的智能体交互协议。通过对一系列前沿开源与闭源LLM智能体系统的评估,我们发现当前智能体在专业求解器面前表现显著逊色,这揭示了通用规划器在现实约束下的核心局限。AstroReason-Bench为未来智能体研究提供了一个兼具挑战性与诊断性的测试平台。
当前基于扩散模型的视频生成方法虽能合成视觉逼真的视频,却常难以满足物理约束。关键原因在于多数现有方案仍停留于单阶段模式:它们将高层物理理解与底层视觉合成相耦合,导致难以生成需显式物理推理的内容。为解决这一局限,我们提出无需训练的三阶段流程PhyRPR:物理推理—物理规划—物理优化,实现物理理解与视觉合成的解耦。具体而言,物理推理阶段采用大型多模态模型进行物理状态推理,并借助图像生成器合成关键帧;物理规划阶段通过确定性方法生成可控的粗粒度运动框架;物理优化阶段通过潜在融合策略将该框架注入扩散采样过程,在保持规划动态的同时优化外观。这种分阶段设计使生成过程具备显式物理控制能力。在物理约束下的广泛实验表明,本方法能持续提升生成内容的物理合理性与运动可控性。
我们通过NeurIPS 2025视觉语言推理数据策展挑战赛(DCVLR)研究多模态推理的数据优化方案。该挑战赛通过固定模型与训练流程来隔离数据集选择的影响。我们基于沃尔顿多模态冷启动数据集构建的紧凑型精选数据集在本次竞赛中荣获第一名。赛后消融实验表明,在已对齐的基础数据集上实施基于难度的样本选择是提升性能的关键驱动力。在固定训练方案下,扩大数据集规模并不能稳定提高平均准确率,主要作用在于降低多次运行的方差;而常用的多样性增强和合成数据启发式方法不仅无法带来额外收益,反而常常降低性能。这些结果表明DCVLR属于饱和态评估范式,同时凸显了数据对齐与难度筛选在高效多模态推理中的核心作用。
输出多样性对大语言模型至关重要,它支撑着多元性与创造力。本研究发现,通过控制模型思考时使用的语言——即思维语言——能够为输出多样性提供新颖且结构化的来源。初步研究表明,不同思维语言在模型的思维空间中占据不同区域。基于此发现,我们研究了多语言思维下的两种重复采样策略:单语言采样与混合语言采样,并对所有输出(无论采用何种思维语言)统一控制为英语进行多样性评估。大量实验表明,将思维语言从英语切换至非英语语言能持续提升输出多样性,且存在清晰稳定的正相关关系:思维空间中与英语距离越远的语言带来的增益越大。我们进一步证明,通过组合效应聚合多思维语言的采样可产生额外提升,且基于语言异质性的规模采样能拓展模型的多样性上限。最后,这些发现在多元对齐场景中展现出实际价值,使大语言模型输出能覆盖更广泛的文化知识与价值取向。相关代码已开源:https://github.com/iNLP-Lab/Multilingual-LoT-Diversity。