每日精选AI研究论文及翻译
路由器是混合专家模型中的基石组件。作为专家的代理,路由器矩阵的各行计算其与MoE输入的相似度,以决定激活哪些专家子集。理想情况下,每一行路由器旨在将专家矩阵编码为这个代表性向量,从而使其与token的点积能更好地反映token与专家之间的亲和度。然而,目前尚无设计原则来强制实现这种压缩。在本文中,我们提出将每个路由器行与相关专家的主奇异方向对齐,因为该方向提供了矩阵最具表达力的数学描述。基于这一原则,我们提出了一种使用流形幂迭代(MPI)的路由器重新设计。具体来说,它引入了"先幂迭代后收缩"的范式,即在路由器权重上执行幂迭代步骤,然后通过收缩施加范数约束,以确保效率和稳定性。理论上,我们证明MPI驱动路由器行收敛到相关专家的主奇异方向。实验上,我们在1B到11B参数的多个规模上预训练MoE模型,以证实这种对齐有助于构建更有效的MoE模型。
科学进步依赖于探索、实验和抽象之间的反复循环。研究者测试候选方向,解读证据,并将所得的经验教训应用于后续尝试。我们研究如何让人工智能智能体能够在长时间跨度内自主运行这一循环。我们提出了Arbor,一个用于自主研究的通用框架,它结合了长期存在的协调器、短期运行执行器,以及假设树精炼(HTR)——一种持久化的树结构,它随时间链接假设、产物、证据和提炼出的洞察。协调器管理全局研究策略于该树上,而执行器在隔离的工作树中实施并测试单个假设。随着结果返回,Arbor更新树结构,传播可复用的经验教训,精炼搜索前沿,并接纳经过验证的改进。这一设计将自主研究从一系列局部尝试转变为累积过程,其中策略、执行和证据跨越时间而得以传承。我们在自主优化(AO)这一操作设置下评估Arbor,其中智能体通过迭代实验改进初始研究产物,无需步骤级别的人类监督。在模型训练、工具工程和数据合成等六个真实研究任务中,Arbor在所有六个任务上均取得了最佳的留出结果,在相同的任务接口和资源预算下,其平均相对留出增益超过Codex和Claude Code的2.5倍。在MLE-Bench Lite上,Arbor使用GPT-5.5达到了86.36%的Any Medal成绩,这是我们对比中最强的结果。
环境作为基于大语言模型(LLM)的智能体在不同场景中的交互系统,在推动模型能力持续演进中发挥着关键作用。尽管其重要性不言而喻,但现有工作缺乏系统性的分类与深入分析。本文从环境工程生命周期的视角系统梳理了当前有关智能体环境的研究,涵盖其建模、合成、评估与应用四个维度。具体而言:首先,从八个属性与八个领域的角度介绍代表性环境,详细分析其发展路径并揭示核心能力;其次,针对自动化环境合成,引入符号合成与神经合成两种范式,并展示各范式下的不同评估方法;再次,从智能体-环境协同演化的视角探讨相应环境应用,重点从记忆驱动的经验演化、编排驱动的工作流演化、轨迹驱动的离线演化及探索驱动的在线演化四个互补维度刻画动态环境中智能体演化的主要路径,同时识别出环境演化的三种范式——神经驱动型、难度驱动型与规模驱动型;最后,讨论若干有前景的未来方向,包括环境即服务、多智能体环境及神经符号环境。
诸如OpenClaw之类的通用型智能体日益被用作自主工具使用者,但其编码能力在SWE-bench基准测试中难以衡量:通用智能体本身并不满足评分所需的干净Docker工作区、补丁和预测合约。本文提出Claw-SWE-Bench——一个多语言SWE-bench风格基准测试及适配器协议,该协议使得异构智能体绑定框架(即"爪")能够在固定提示词、运行时预算、工作区合约、补丁提取流程及评估器等公平设定下实现可比性。完整基准测试包含350个GitHub问题修复实例,涵盖8种语言和43个代码仓库,这些实例在剔除未来提交后从SWE-bench-Multilingual和SWE-bench-Verified-Mini中筛选得出。同时,我们发布用于快速验证的Claw-SWE-Bench Lite版本,该子集包含80个实例,通过基于17个校准列的代价感知与排名感知流程选取。在完整基准测试中,采用最小直接差异适配器的OpenClaw仅取得19.1%的Pass@1,而完整适配器在相同GLM 5.1主干模型下达到73.4%,表明适配器设计对于使OpenClaw类框架有效执行编码任务至关重要。通过对OpenClaw进行九模型扫描以及五框架两模型扫描,在固定模型下模型选择使Pass@1变化29.4个百分点,框架选择使Pass@1变化27.4个百分点;具有相近准确率的系统在API总成本上可能存在显著差异。因此,Claw-SWE-Bench将框架与成本核算作为SWE式编码智能体评估的首要维度,既提供完整基准测试,也提供低成本参考集以实现可重复比较。数据获取地址为:https://github.com/opensquilla/claw-swe-bench 和 https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench。
奖励模型是文生图后训练的核心,但视觉偏好具有主观性,更适合表示为评分分布的分布形式,而非确定性标量。现有的标量、分数令牌和成对奖励模型过度压缩了不确定性和细粒度分数差异,而基于推理的生成式奖励虽能提供更强判断力,但部署成本高且难以作为直接的优化信号使用。我们提出Z-Reward,一种解耦推理密集型判断与高效奖励部署的教师-学生奖励建模框架。该框架中的教师模型为大型VLM,通过推理推断对齐评分标准的分数分布,并采用分组直接分数优化(GDSO)进行训练——该方法将来自分布期望的策略梯度奖励与分数分布及分数差距上的直接逐点和成对监督相结合。学生模型通过推理内化分数蒸馏(RISD)进行训练,将教师基于推理的分数分布迁移至紧凑型VLM,无需在推理时显式生成推理链。在我们内部标注的评估集上,27B规模的GDSO教师模型达到89.6%的人类偏好准确率,优于SFT、RewardDance和GRPO;而9B规模的RISD学生模型达到88.6%,超越OPD基线并紧密匹配更大规模教师模型的性能。我们进一步证明,Z-Reward可作为可微分的奖励信号用于文生图优化,相比SFT基线带来41.3%的净人类偏好提升。
表格编码器通常在特定任务的端到端流水线中进行评估,因此即使不同训练范式的模型处理相似的表格信号,也难以直接比较。我们提出TRL-Bench,一个多粒度表格表示学习(TRL)基准,用于标准化跨范式的表示级评估:每个编码器通过其支持的封装器导出行嵌入、列嵌入或表嵌入,共享轻量级探针在三个套件中对其进行探测:TRL-CTbench(列/表)、TRL-Rbench(行)和TRL-DLTE(涵盖所有三种粒度的组合式数据湖表增强)。为支持这一标准化设置,我们发布了精选的基准资产和任务重构,包括50个OpenML表格(含123个已验证目标)、16个行对链接重写任务,以及一个由1,379个父表衍生出的47,772表DLTE数据湖。在20个模型和16个任务上的实验表明,一旦下游条件标准化,编码器质量具有能力特异性,而非由单一排行榜决定。在TRL-CTbench中,通用文本编码器在表面文本信号较强的任务上通常领先,而表格专用模型在其预训练目标与任务对齐时胜出。在TRL-Rbench中,表内预测和跨表链接偏好不同的训练体制,其中原子链接性能与DLTE流水线的行匹配阶段高度相关。在TRL-DLTE中,最强流水线结合了能力匹配的专用模型,而非重复使用单一编码器,且顶级端到端质量取决于非加性的组合适配度,而非各阶段的边际排名。TRL-Bench为在共享下游条件下测量导出表格表示中的可复用信号提供了通用协议。代码和数据:https://github.com/LOGO-CUHKSZ/TRL-Bench
从自我中心视频进行空间推理本质上具有挑战性,因为可观察到的证据受限于相机轨迹。现有方法依赖单轮推理,迫使模型通过语义先验而非可验证的证据来解决几何模糊性。我们认为空间推理应是可回溯的:在有限证据下形成的结论,当获得互补视角时,应当保持修正的可能性。基于这一见解,我们提出“推理,再推理”(ReRe)——一种免训练、推理时的双阶段框架:在推理阶段,多模态大语言模型根据原始视频形成空间假设;在再推理阶段,模型通过观察合成的新视角视频来验证或修正该假设。为实现有效的跨视角回溯,我们设计了“几何到视频”流水线,从预测的3D几何中渲染策略性互补的新视角。这些视角具有抬高的斜视视角,覆盖场景全景,同时保留多模态大语言模型的原生视频接口,无需架构修改。在VSI-Bench和STI-Bench上的广泛评估表明,ReRe显著提升了开源多模态大语言模型的性能,使其与专有最优性能相匹敌。项目页面:https://zhenjiemao.github.io/ReRe/
随着基于大语言模型的代码智能体能力不断提升,其预期角色正从现有代码库中的局部缺陷修复,扩展到根据高层级规范构建并实现完整的软件仓库。然而,由于缺乏大规模、可验证的完整仓库生成数据,针对这类长周期软件工程任务训练智能体仍具挑战。本文提出DeNovoSWE——一个用于完整仓库生成的大规模数据集。该数据集包含4,818个高质量实例,每个实例需根据文档生成完整的仓库。我们通过精心设计的沙盒化智能体工作流自动构建该数据集,无需人工标注即可实现可扩展的数据策展。DeNovoSWE的构建遵循"分而治之"与"批评-修复"理念。为平衡数据质量与多样性,我们进一步引入了难度感知的轨迹过滤策略。在DeNovoSWE上微调Qwen3-30B-A3B模型显著提升了其在长周期软件工程任务上的性能,在具有挑战性的BeyondSWE-Doc2Repo基准测试中,得分从5.8%提升至47.2%。
视觉-语言-动作(VLA)模型通过大规模预训练继承了语义基础,并在分布内操作任务中表现良好。然而,这种语义基础建立在静态图像-文本对之上,而操作是一个连续的、富含接触的过程,其动态特性是预训练无法捕获的。我们提出World Pilot,这是一个VLA框架,通过两条互补路径将世界-动作模型(WAM)的先验知识注入决策链:潜在引导利用场景演化潜在变量调节感知层,动作引导则提供预期轨迹作为动作生成器的运动先验。这两个先验共同赋予VLA场景演化视角和轨迹级运动提示,并与其语义条件结合;即使使用未经过动作后训练的视频预训练世界模型提供的场景演化先验,仍能保持有效性。World Pilot在LIBERO-Plus零样本跨域测试基准上达到84.7%的总成功率,并在四项操作任务的每个真实机器人场景中均取得最高成功率,在视角、几何形态、可变形状态和位姿变化下展现最大优势。项目网站:https://world-pilot.github.io/
Transformer在现代序列建模中占据主导地位,但其二次注意力机制带来了显著的计算开销。次二次架构提供了一种可扩展的替代方案。然而,何种设计能够产生最有效的序列模型仍不明确。我们比较了三种主流方法:xLSTM、Mamba-2和门控DeltaNet。在具有复杂依赖关系的任务中评估这些模型:(1)代码模型预训练,(2)从大语言模型中蒸馏代码模型,(3)时间序列基础模型预训练。在这些场景下,xLSTM展现出最强的整体性能。为解释xLSTM的优势,我们提出统一公式并分析底层架构机制,重点关注状态追踪和记忆动态特性。结果表明,xLSTM通过其门控机制实现了更灵活、更稳定的记忆修正。我们通过可控合成长度泛化任务验证了这些发现。总体而言,我们的研究结果表明,xLSTM在复杂任务上的优势源于其稳健的状态追踪与累积能力。
组合数学是奥林匹克级数学问题求解的核心,要求具备深刻的离散推理能力、创造性构造能力以及严谨的结构洞察力。最新证据表明,即便是当前最前沿的模型在奥林匹克组合数学问题上仍表现不均,暴露出创造性数学推理能力的不足。为此,我们提出ComBench——一个面向大型语言模型组合推理能力评估与诊断的奥林匹克级组合数学基准测试。该基准包含100道经过人工标注的竞赛级试题,围绕两种互补场景组织:分析中心型问题(主要需严谨数学论证)与构造中心型问题(除正确性证明外还需显式构造)。评估协议结合了基于评分标准的证明分级与确定性构造验证,揭示了证明质量与构造有效性可能脱节的现象。针对前沿开源与闭源模型的实验表明,ComBench远未达到饱和:最强模型整体平均分达65.4%,最高Best@4得分为75.3%。我们进一步发现,严谨证明推理与构造性实现是两种独立能力:Kimi-K2.6在分析中心型证明评分上落后于GPT-5.5,但在构造中心型Best@4上反超;而在代表性前沿模型中,存在性与构造类问题始终是最具挑战性的部分。
近期基础模型的研究进展已转向具备多步推理与工具使用能力的智能体行为。然而,开源领域的研究主要聚焦于文本主导场景,长程多模态任务仍鲜有探索。这一差距在需要持续时间理解与迭代交互的视频任务中尤为显著。我们提出InternVideo3框架,通过多模态情境推理(Multimodal Contextual Reasoning, MCR)增强此类能力。MCR将理解过程视为一个闭环系统,其核心是包含观察、指令、推理、工具操作与记忆的动态共享情境。该方法将长视频理解重构为证据积累与验证过程。为保障效率,我们引入多模态多头潜在注意力(Multimodal Multi-head Latent Attention, M^2LA),这是一种保留完整令牌流的令牌保持重参数化方法,可压缩KV缓存状态。分阶段训练方案涵盖持续预训练、短程到长程的有监督微调、基于规则的强化学习以及在线策略蒸馏。实验表明,InternVideo3在Video-MME、MLVU和EgoSchema等基准测试中展现优异性能。我们进一步将该模型实例化为配备检索工具的视频智能体,展现出稳健的证据驱动行为。研究结果表明,高效的情境处理与闭环推理对于推动开放多模态模型适应长程视觉具身行为至关重要。
大型语言模型(LLMs)越来越多地被用于代码生成,这引发了对它们可能被滥用以生成恶意代码的担忧。与此同时,语法约束解码(GCD)通过强制执行句法有效性,已被广泛应用于提升LLM生成代码的可靠性。在本文中,我们揭示了一个反直觉的风险:这种旨在提升可靠性的技术本身可能成为攻击面。我们发现了一种名为CodeSpear的新型越狱攻击,它利用GCD诱导LLM生成恶意代码。实验表明,仅应用良性的代码语法约束就能有效越狱LLM。 为了解决这一漏洞,我们提出CodeShield,一种安全对齐方法,即使在攻击者控制的语法约束下也能稳健地保持安全行为。CodeShield通过教导模型在GCD下生成蜜罐代码来实现代码模态的对齐。这种代码在语义上无害(因此不会执行恶意请求),且在结构上多样(因此难以通过收紧语法来抑制)。同时,当自然语言可用时,CodeShield仍保留基于自然语言的拒绝响应。在4个基准测试中对10个流行LLM的实验表明,CodeSpear优于代表性越狱基线,平均攻击成功率提升超过30个百分点。CodeShield在CodeSpear攻击下恢复安全性的同时,仍保持良性效用。我们的发现揭示了GCD的根本性风险,并呼吁对其潜在安全影响给予更多关注。
强化学习(RL)已成为现代大型语言模型的关键组成部分,然而展开阶段仍是RL训练流程中的主要瓶颈。尽管多令牌预测(MTP)通过投机解码提供了一种加速展开的自然解决方案,但许多研究发现MTP的接受率在RL训练期间显著下降,导致加速性能有限。为解决这一瓶颈,我们提出Bebop——一项针对LLM后训练中MTP的系统性研究,并提供将MTP集成到大规模RL流程中的实用方案。首先,我们揭示MTP接受率本质上受模型熵波动的约束,且与RL阶段熵的上升呈现清晰的负线性关系。其次,我们证明相比贪婪草稿采样,概率拒绝采样能大幅缓解RL中熵引入的干扰。我们进一步发现传统MTP训练目标(交叉熵或KL散度)在此类设置中表现次优,因此提出一种新型端到端全变差(TV)损失,直接优化多步拒绝采样的接受率,实现约10%的接受率提升,在数学推理、代码生成及智能体任务中达到高达95%的接受率与25%的额外推理吞吐增益。第三,我们测试了RL期间多种在线MTP训练策略,并表明采用端到端TV损失与拒绝采样的预RL MTP训练,能在整个RL过程中保持稳定的接受率与加速效果,从而消除代价高昂的在线MTP更新需求。我们通过大量实验与分析验证了上述发现。实验结果表明,我们的方法在Qwen3.5、Qwen3.6和Qwen3.7模型的异步RL训练中实现了高达1.8倍的端到端加速。
可验证奖励强化学习(RLVR)是增强大语言模型推理与代理行为的一种有前景的方法。然而,大规模 rollout 的策略优化常受限于奖励对比度不足——当过于简单或复杂的提示生成低方差反馈时,以及当仅基于结果的奖励在多次交互的 rollout 中将相同的终局评估赋予每一步决策时,这一问题尤为突出。以往的研究集中于将已有的 rollout 资源分配给有潜力的提示,但仅利用了提示层面的样本信息量,而忽视了同一 rollout 中不同步骤间前缀层级信息量的差异。本文针对多轮代理强化学习,将每个 ReAct 风格的思考-行动-观察步骤建模为语义上不同的节点,使得预算分配能从提示根节点扩展到步骤级前缀及其后续延伸,从而自然形成树形 rollout 结构。我们提出面向对比探索的树形 Rollout 分配(TRACE),这是一种统一的 rollout 分配框架,能在固定采样预算内增强奖励对比度。在技术上,TRACE 将 rollout 预算同时分配给最可能产生混合终局奖励的提示根节点和中间前缀节点。一个共享的通用预测器利用这些锚点的前缀历史来估计条件成功概率,从而指导这一分配过程。由此产生的自适应树形结构丰富了仅基于结果的反馈,并放大了策略更新信号。实验表明,TRACE 在典型代理基准任务上达到了具有竞争力的性能和效率提升,例如在同等采样成本下,使 Qwen3-14B 的多跳问答平均准确率相比强基线提升 2.8 个百分点。
视觉-语言模型(VLMs)将图像投影为成百上千个视觉标记,导致解码器在注意力计算和KV缓存显存上的推理成本高昂。现有的视觉标记削减方法大多遵循"排序-移除"范式:对视觉标记进行评分,保留紧凑子集,并永久丢弃其余标记。我们发现这种不可逆操作存在脆弱性——视觉标记的重要性随解码器深度而变化;在某一阶段排名较低的标记可能在后续层变得重要,尤其对于依赖细粒度定位能力的查询。为此,我们提出Reroute,一种无需训练的即插即用组件,将移除替换为可恢复路由。在每个路由阶段,选中的视觉标记通过解码器模块,而被暂缓的标记则绕过该阶段,在下一个路由决策时重新进入候选池。Reroute复用现有的注意力分数排序规则和阶段级调度策略,保持了所增强剪枝方法的理论TFLOPS和KV缓存预算类别。在基于LLaVA-1.5和Qwen骨干网络的FastV、PDrop及Nüwa变体上,Reroute在激进标记削减条件下提升了细粒度定位能力,同时保持通用VQA性能。这些结果表明,VLM的标记削减不应仅被视为不可逆剪枝,还应被视为可恢复路由。代码见:https://github.com/elmma/mllm-reroute/
在语言模型表征中寻找可解释的方向,对于理解与控制模型行为至关重要。稀疏自编码器已为此成为标准工具,但将其作为默认的首要分析视角,通常需要训练、存储和评估大型过完备字典。这一瓶颈限制了快速探索,并引发一个根本性问题:在训练另一种神经字典之前,从激活几何结构中已经能观察到多少可解释结构?我们的直觉很简单:许多可解释方向对token具有选择性,而这些方向应比随机方向更不服从高斯分布。因此,我们重新审视独立成分分析这一经典的寻找非高斯方向的方法,将其作为语言模型可解释性的紧凑视角。我们发现,独立成分分析在大语言模型可解释性方面被低估了,因为以往的使用通常依赖现成的独立成分分析实现,这些实现在大语言模型激活上存在脆弱性,且缺乏系统化工具来检查和评估恢复出的方向。为弥补这些不足,我们引入了ICALens,这是首个用于对大语言模型表征进行稳定、高效且可审计的独立成分分析分析的实用工作流程。它结合了优化的GPU并行FastICA流程、面向大语言模型的稳定性配方以及更好的拟合诊断方法,从而支持高效可靠的逐层分析。在GPT-2 Small、Gemma 2 2B和Qwen 3.5 2B Base上,ICALens能高效恢复紧凑、人类可解释的方向,无需逐层基于梯度的字典训练。在SAEBench上,独立成分分析在稀疏探针任务中与公开的稀疏自编码器性能相当,并在中小规模预算下的定向探针扰动中表现更优。这些结果表明,独立成分分析不应被视为一个弱势基线,而应作为探索语言模型表征的一种高效且互补的首要分析视角。
自主式大语言模型训练常被框架化为配方搜索,这导致训练框架基本保持静态。这一局限在智能体强化学习中尤为突出——动态瓶颈与标量奖励掩盖了多样化的失败模式。为此,我们提出EvoTrainer这一自主训练框架,通过经验反馈协同进化大语言模型策略与训练侧框架:它诊断轨迹级证据、修正诊断结果、回测干预措施,并积累可复用技能。在数学推理、竞赛级代码生成以及仓库级软件工程任务上的评估表明,在相同数据、代码库与评估协议下,EvoTrainer的表现达到或超越了人工设计的强化学习基准,其中在长周期智能体软件工程任务上增益最大。轨迹分析显示,保留的策略因领域而异,进化中的诊断机制可阻止无效高分分支的晋升,而可复用技能则塑造后续搜索方向。自主式大语言模型强化学习应超越配方搜索,迈向策略与解读策略的训练框架的协同进化。
我们提出了Embodied-R1.5,一种统一的具身基础模型(EFM),该模型将全面的具身推理能力——涵盖具身认知、任务规划、纠正与指向——集成在单一架构中,向通用物理智能迈进。通过利用三条自动化数据构建流水线显著扩展关键能力的数据覆盖范围,我们构建了超过150亿token的大规模数据系统,并设计了多任务平衡的强化学习方案以缓解异构任务冲突。我们进一步引入规划器-接地器-校正器(PGC)闭环框架,使单一模型能够自主执行并自我纠正在长时域任务中的操作。仅凭80亿参数,Embodied-R1.5在24个具身视觉语言模型基准测试中的16项上达到最优性能,超越了Gemini-Robotics-ER-1.5和GPT-5.4等领先模型。得益于内化的具身能力,Embodied-R1.5仅需少量数据即可微调为视觉语言动作模型(VLA),在4个主流操作基准套件上优于π_{0.5}等领先VLA模型。我们还进行了广泛的零样本真实机器人实验,验证了其在指令遵循、可供性定位、铰接物体操作及长时域复杂任务中的表现,展现出对物理世界的强大泛化能力。我们开源了模型权重、数据集、训练代码以及专为具身任务设计的评估框架EmbodiedEvalKit,以促进未来在具身基础模型领域的研究。
基于可验证环境的强化学习已成为提升大语言模型推理能力的有效方法。尽管已有研究表明,扩大环境规模能改善强化学习性能,但现有的人工或单任务构建方法受限于线性扩展瓶颈,阻碍了可扩展的推理泛化。本文提出RACES(面向环境扩展的递归自动组合框架),该框架将可验证环境视作可递归组装的组合模块。其核心思想在于:当一个环境的共域(输出类型)与另一环境的定义域(输入类型)匹配时,两者可自动融合为新的可验证环境,实现递归组合。RACES基于300个独立环境实现,并定义了四类组合运算符(顺序、并行、排序与选择),从而衍生出多样化的推理模式。大量实验表明,在这些组合环境下进行的强化学习训练能持续增强推理泛化能力。具体而言,在六个训练环境构建时未曾见过的基准测试中,RACES使DeepSeek-R1-Distill-Qwen-14B的平均性能提升3.1分(从48.2升至51.3),并将Qwen3-14B的性能从58.8提升至61.1。此外,仅使用50个基础环境时,RACES即可达到与300个独立环境训练相当的性能水平,展现出显著的环境利用效率。
预训练视频生成器作为具有涌现任务求解能力的视觉世界模型前景广阔,但其对详细文本描述的依赖限制了其直接用于规划与决策。现有方法要么将此推理过程外包给语言模型或视觉语言模型,要么依赖代价高昂且难以规模化的配对任务执行视频进行监督微调。我们提出一种可扩展框架,通过结合自蒸馏与强化学习来激发此类模型的任务求解能力。给定一张未标注的场景图像,视觉语言模型生成候选任务及其详细的分步解决方案。该解决方案作为预训练视频扩散模型(演示者)的条件输入;我们将其行为蒸馏至执行者模型,后者仅以图像和简短任务提示为条件。这一过程将字幕引导生成中的执行知识迁移至指令条件任务求解,无需人工标注的任务-视频配对数据。我们进一步利用视觉语言模型反馈进行强化学习来优化执行者,利用"评判生成的视频是否满足任务"与"生成解决方案"之间的非对称性。在我们提出的WorldTasks基准测试与DreamGen机器人基准测试上的实验表明,在基于视觉语言模型的评估协议下,执行者性能超越演示者,并能有效迁移至机器人任务。
流水线并行对于训练大型神经网络至关重要,但现有调度策略需在吞吐量、内存和优化一致性之间权衡。同步流水线保持了前向/后向权重一致性,但存在气泡问题;异步流水线消除了气泡,却引入了权重版本不匹配,通常需要权重缓存、预测或修正机制。我们提出PACI(可控不一致异步流水线训练),这是一种无气泡的异步流水线方法,能在无需权重缓存、预测、额外参数副本或全局同步的情况下,限制前向/后向版本的漂移。其核心思想是利用局部梯度累积作为版本控制机制:通过相对于流水线延迟放缓参数版本演进,PACI在保持稳态利用率的同时,限制了任何微批次跨越的优化器更新次数。在GPT风格语言模型预训练中,PACI达到了与同步1F1B-flush相当的稳定性和最终困惑度,保持了相同的峰值内存占用,实现了完全利用的流水线吞吐量,并将训练收敛时间相比最快flush基线提升高达1.69倍。这些结果表明,前向/后向不一致性无需被消除:当被显式约束时,它可以安全地换取显著的效率提升。
扩散模型持续推动了文本到图像生成领域的进步。然而,将近期进展归因于特定建模与数据选择仍面临挑战:最先进的开放权重模型仅提供有限的消融实验,且未公开其训练数据与完整训练细节。研究界需要完全开放(包含权重、数据与代码)的模型作为进一步研究的基础,但现有完全开放模型在性能上仍显著落后于领先模型。在本项目中,我们通过300余组受控实验(累计超过70万TPU v6e小时)系统性地研究了文本到图像扩散训练与推理中的建模及数据设计选择。实验揭示了多项实证发现(例如,等权重是混合精选数据集的强效默认策略)与简单设计决策(例如,更大的文本编码器适配器能以极少的参数增加提升性能),从而指导强模型的训练。基于这些洞见,我们训练了仅使用公开数据集的30亿参数文本到图像扩散模型i1。在五个代表性基准(GenEval、DPG、PRISM、CVTG-2K与LongText)上,i1与领先模型性能相当,并在五个基准上平均超越最佳现有完全开放模型29.5个百分点。我们提供i1模型检查点、训练与推理代码,以及数据处理流程。我们的发现与i1方案共同为未来文本到图像扩散模型的开放研究奠定了实践基础。代码已开源至https://github.com/zlab-princeton/i1。
计算机使用智能体(CUA)依赖对图形用户界面的视觉观察,每张截图会被编码为大量视觉令牌。随着交互轨迹的延长,令牌成本急剧上升,在固定上下文和计算预算下限制了可纳入的历史信息量。与其他领域不同,这导致使用历史信息时性能几乎没有提升或提升极其有限。针对这一低效问题,我们提出ReVision方法——通过训练多模态语言模型处理轨迹数据,利用可学习的补丁选择器比较连续截图中补丁表征,在保留模型所需空间结构的同时移除冗余视觉补丁。在OSWorld、WebTailBench和AgentNetBench三个基准测试中,使用Qwen2.5-VL-7B处理包含5张历史截图的轨迹时,ReVision在无丢弃基线基础上平均减少46%的令牌使用量,同时将成功率提升3%。这建立了清晰的效率增益,使智能体能够用更少的令牌处理更长的轨迹。借助这种改进的效率,我们重新审视历史信息在CUA中的作用,发现当移除冗余后,纳入更多历史观察可持续提升性能。
智能体技能为扩展通用型智能体提供了一种轻量级机制,但其开放式格式使其面临技能中毒攻击的风险。一种实际具有危害性的注入必须保持隐形:若有效载荷的执行偏离用户合法任务,由此产生的失败信号会引发对技能的审查。因此,我们通过攻击成功率来评估攻击,这要求注入的有效载荷得以执行,且同一试验中用户任务仍能通过其验证器。此前的中毒攻击在此视角下面临可靠性-隐蔽性权衡:YAML头部注入虽能可靠加载,但易被审查;而更隐蔽的主体注入将显式恶意命令置于技能文本中,由于脱离上下文的命令易引发智能体自身的怀疑,故可靠性较低。我们提出POISE,一种基于位置的攻击方法,将触发器压缩为单一、外观良性的主体指令,将其置于可行位置,并利用上下文感知生成器将其与邻近的设置或先决步骤融合。在Skill-Inject基准上结合codex+gpt-5.2,POISE实现了89.3%的攻击成功率,较随机位置的主体基线高出28.0个百分点,较纯YAML基线高出2.6个百分点,同时保留了主体放置的隐蔽性优势。这种隐蔽性正是决定性优势所在:由于合法技能主体天然需要特权工具操作,LLM扫描器对此高度敏感,在四个评判器及两个基准上平均误报率高达74.6%的干净技能。POISE融入这些误报之中,仅有5.6%的中毒变体相对于其干净基线新增了高风险警报,使得当前的静态防御措施难以奏效。
剩余使用寿命(RUL)预测对工业预测性维护至关重要,然而许多基于学习的方法依赖于大量特征工程或大规模标注数据集来训练特定任务的序列模型。本文提出一种轻量级学习方法,该方法利用冻结的预训练时间序列基础模型(TSFM),并结合小型回归头对多变量传感器流进行RUL估计。具体而言,我们采用Chronos-2作为冻结骨干网络提取上下文窗口特征,并训练轻量级回归神经网络进行RUL预测。在两种设备类型的真实工业传感器数据上的实验表明,在相同的预处理和评估协议下,Chronos-2特征持续优于循环神经网络、卷积神经网络、基于Transformer和梯度提升的基线方法。我们进一步分析了上下文长度的影响,发现更长的历史数据能显著提升性能,这表明TSFM表示为工业场景中的RUL估计提供了一种实用且数据高效的替代方案。
许多现代视觉语言模型(VLM)依赖于对离散令牌的自回归解码。尽管基于文本的输出接口支持大规模预训练并在多种任务中展现出强大的零样本泛化能力,但对于需要精确连续输出的问题——例如定位事件的时间边界或生成机器人控制动作——这类模型却难以适用。为解决这一挑战,我们提出了DRIFT,一个适用于将预训练VLM适配到连续解码任务的通用框架。DRIFT将基础预测器(提供目标输出的粗估计)与基于流匹配的生成式细化模块相结合,通过迭代方式不断改进预测。这种残差公式化将生成建模问题从学习全局输出分布转变为在强先验基础上建模局部残差分布,从而大幅简化优化过程。我们在感知和规划任务(包括视觉定位与机器人控制)上对DRIFT进行了评估。在跨越多模态大语言模型(MLLM)、视觉语言动作模型(VLA)和世界动作模型(WAM)的多种任务与架构中,DRIFT 都取得了优于一系列强回归与生成式基线的表现。
针对大型语言模型(LLMs),主要有两种参数高效微调(PEFT)技术。低秩适应(LoRA)在LLM层间引入额外权重,而软提示(Soft Prompting)则向LLM输入中添加特定于微调的原始标记。然而,这两种方法均需修改预编译、预优化的LLM计算图,因此在高吞吐量引擎(如vLLM)中无法获得完整支持。我们提出基于艺术强化训练(ART)的微调方法。该方法通过仅优化冻结多模态大语言模型(MLLM)的原始视觉输入来注入信息,从而在预编译计算图上实现软标记方法。它依赖于梯度反向传播至纯像素阵列,因此支持任何微调目标。此外,优化后的视觉输入可被风格化为与任务相关的计算艺术作品。该方法在流行开源Qwen架构的不同规模模型上,以及多个文本基准测试中均验证了其有效性。具体而言,ART在数学和结构化工具使用基准测试中达到了与LoRA相当的准确率。
先前研究表明,指令微调后的大语言模型(LLMs)的校准性能逊于其基础预训练版本。然而,关于对话型LLMs中常用的聊天模板对其校准效果的影响,目前知之甚少。本研究通过解耦后训练算法与聊天格式的影响,探究导致这种校准偏差的机制。我们发现,虽然指令微调从根本上损害了校准性能,但聊天模板通过"所有权偏差"加剧了这一问题——模型对其自身回答的置信度显著高于对用户提供的相同回答。基于六个最新开源权重LLMs、三个基准数据集及三种置信度获取方法的广泛实验表明,模型对其自身回答的置信度赋值高出高达26%。利用这一发现,我们提出一种简单的推理时策略:在置信度获取环节将模型回答伪装为用户输入。该方法无需重新训练即可显著降低过度自信,将校准性能提升高达26%,缩小了基础模型与指令微调模型间的差距。
大语言模型(LLMs)为翻译任务带来了新的潜力,但在处理低资源语言时往往会出现性能下降。为克服这一局限,我们提出了一种针对低资源语言——古邦马来语的LLM微调方法。该方法通过利用双语词典中的显式词汇和语义特征设计一组指令,并引入持续指令微调(CIT)这一训练范式,实现迭代式基于指令的训练。实验结果表明,我们名为Lius的模型在多项评测指标上较标准指令微调模型提升了4-6个百分点,且超越神经机器翻译(NMT)和多语言LLM模型10-13个百分点。这些发现凸显了该方法在低资源语言翻译中减少对大规模平行语料依赖的潜力。
大型语言模型(LLMs)被广泛用于通过自主工作流处理复杂任务。近年来,可复用的自然语言技能作为一种将程序性知识注入LLM应用的范式逐渐兴起。由于常用技能往往需要重复调用,在每次上下文输入完整文本会显著增加预填充成本和延迟。虽然文本压缩技术有望解决该问题,但现有方法主要面向文档中的事实性知识压缩而非程序性知识,难以胜任技能压缩任务。本文论证了有效的技能压缩方法应满足三个要求:1)保留工作流与工具协议间的逻辑依赖关系;2)支持对频繁更新的社区技能进行轻量级离线压缩;3)能够适应不同技能复杂度的差异。为此,我们提出SKIM(技能压缩框架),一种面向程序性技能的自适应多分辨率软令牌压缩框架。SKIM根据各技能复杂度生成不同数量的软令牌,在提升LLM推理效率的同时保持技能使用的有效性。实验表明,SKIM能将技能压缩至原始令牌长度的30%至60%,且在任务性能保持上优于现有压缩方法。相关代码已开源至https://github.com/bebr2/SKIM。
理解并预测社会信念如何因应事件(从政策变化到科学突破)而演变,仍是社会科学领域的核心挑战。鉴于大语言模型具备常识性知识和社会智能,我们提出疑问:大语言模型能否模拟社会事件后的信念动态?本研究引入社会世界模型这一概念,构建了捕捉重大事件后社会信念演变规律的通用框架。该模型通过挖掘社会数据中的时间模式并优化证据下界,学习社会信念的状态转移函数,无需人工标注事件与信念变化之间的关联,也无需昂贵的普查数据。为评估社会世界模型,我们基于现实预测市场(特别是Kalshi和Polymarket)构建了SWM-bench基准测试集。该基准包含逾1.2万个数据点,覆盖政治、金融和加密货币等多领域的社会信念预测任务。实验结果表明,社会世界模型显著优于时序基础模型,在Kalshi数据集上取得最先进性能,在Polymarket数据集上展现竞争力,同时为社会信念动态的潜在机制提供了可解释性洞见。
大语言模型(LLMs)正加速推动科学发现,尤其是在生成有效科学假设等高级任务中展现出最新进展。然而,在许多发现场景中,目标并非识别单一最优假设——因为验证过程可能充满噪声且成本高昂,而科学家需从一组高质量的替代假设中获益,这些假设能对冲下游不确定性,从而找到最佳解决方案。然而,常用的进化搜索策略倾向于在假设生成中优先优化而非探索,搜索过程中的选择压力会导致多样性崩溃。受这些局限的启发,我们将假设搜索问题建模为采样问题:目标是在固定验证预算下,高效生成多样化且高质量的假设。基于这一视角,我们提出\ours——一个受经典并行回火算法启发的进化框架。该框架在多个温度层级上搜索假设,并通过跨温度的有原则信息交换来增强探索,同时不干扰收敛。在分子发现、方程发现和算法发现等多个领域中,我们的方法在相同验证预算下持续提升假设的质量与多样性,生成的候选假设在更昂贵、更复杂的下游计算验证中仍保持稳健。
通用时间序列基础模型在无线网络遥测中迁移效果不佳,因为此类信号具有突发性、零膨胀性,且跨协议层存在耦合。我们提出APEX——一个面向网络的、仅解码器变换器,用于预测企业级接入点(AP)遥测数据,并以DHCP降级作为代表性网络任务进行评测。APEX在约4,500个生产无线网络的10通道多变量遥测数据(约10万条AP时间序列,每个AP包含34个指标)上进行预训练,提供APEX-Large(269M参数,云端)和APEX-Edge(10.5M参数,边缘端)两种版本。在192步(4天)的DHCP降级基准测试中,APEX-Large的平均绝对误差(MAE)比最强基础模型基线(Toto)降低18%,比SARIMA降低38%,异常检测F1得分达0.93;而APEX-Edge可在AP级边缘硬件上实现亚秒级、保护隐私的推理。这些结果表明,网络原生预训练是主动无线网络运维的实用基础。
随着推荐系统向具有自主能力的多轮对话界面转变,评估范式始终难以跟上步伐。当前基准测试通常依赖"大模型即评判者"(LLM-as-a-judge)评估方式,这引入了主观性、高成本及不一致性。我们提出τ-Rec基准,通过可验证奖励机制及揭示标记的启发机制(RTE)取代主观评估,后者可控制任务约束条件在对话中的呈现方式。通过基于结构化目录谓词测试智能体,并采用pass^k可靠性指标,τ-Rec为一致性推理提供了系统化检验。我们对五类模型家族(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B及GPT-5 mini)的九种配置进行了评估,揭示了严峻的可靠性断崖现象——即使最优模型在pass^1指标下仅达约57%,在pass^4下更低至约38%,凸显了当前对话式智能体部署中的关键缺陷。所有代码及数据均已开源:https://github.com/nbharaths/tau-rec。
训练数据策展是现代AI开发中最关键却也最劳动密集的环节之一:从业者需根据嘈杂的基准反馈,迭代提出、实施、评估并修订数据策略。我们探究通用型编码智能体能否自动化这一数据策展循环。为此,我们推出了*Curation-Bench*——一个以智能体为核心的基准测试平台,该平台固定模型、训练方案及评估套件,同时赋予智能体命令行权限,使其能够检查数据、实施策略、将策略提交至固定的训练/评估流程并进行修订。在视觉-语言指令微调的具体实例中,现成的智能体在十次迭代内便达到了已发表的高基准数据选择水平。然而,轨迹分析揭示了持续的*执行-研究鸿沟*:即便提供了策略指南和论文参考文献,智能体仍主要调整局部策略变体,而非探索新的策略家族。要求每次迭代必须引用、实例化并适配先前方法的脚手架结构,促使智能体转向方法引导的探索。经过脚手架结构辅助的智能体自主组合——无需人类设计输入——形成了一种数据选择策略,该策略在仅使用十分之一数据预算的条件下,超越了已发表的强劲基准。总体而言,当前智能体能够运行策展循环,但可靠的数据研究需要带脚手架结构的方法适配,而非仅依赖开放式提示。相关代码与基准测试已开源。
推理模型的后训练通常结合监督微调与基于可验证奖励的强化学习,其中GRPO是最常见的方法。然而,该算法存在奖励稀疏、探索受限及模式坍缩等问题。基于近期自蒸馏研究,我们提出反馈蒸馏训练方法:该方法在词元级别上,使模型自身的分布与语言模型提供的特权反馈条件分布相匹配。反馈蒸馏提供词元级监督,并能够注入外部知识。通过在Lean4定理证明任务上评估该方法,我们发现反馈蒸馏比GRPO能维持更高的生成轨迹多样性,从而产生更高的策略熵和更优的pass@k缩放效果。两种方法具有互补性:从反馈蒸馏检查点初始化GRPO,其性能优于单独使用任一方法。总体而言,我们的研究结果为改善复杂推理任务的后训练提供了一条有前景的途径。
脑磁共振成像(MRI)在神经发育、衰老及疾病研究中扮演核心角色。其中一项关键应用是脑年龄预测(BAP),即通过MRI数据估算个体生物学脑年龄。有效的BAP模型需要规模庞大、多样性高且年龄分布均衡的数据集,而现有3D MRI数据集存在人口统计学偏差,限制了模型的公平性与泛化能力。获取新数据成本高昂且受伦理约束,因此推动了生成式数据增强技术的发展。当前生成方法多基于潜变量扩散模型,这类模型在学得的低维潜空间中运行,以应对体积MRI数据的内存需求。然而,这些方法在推理时通常速度较慢,可能因潜空间压缩引入伪影,且很少以年龄为条件,从而影响BAP性能。本文提出FlowLet——一种条件生成框架,通过在可逆3D小波域中利用流匹配方法合成年龄条件化的3D MRI,有助于避免重建伪影并降低计算需求。实验表明,FlowLet仅需少量采样步骤即可生成高保真体积数据。使用FlowLet生成的数据训练BAP模型可提升对低年龄组人群的性能,而基于区域的分析证实了解剖结构的保留。
现代LLM训练管道日益依赖其他模型进行数据生成、语料过滤、输出评判以及开发决策指导。这些依赖关系具有递归性:一个模型可能依赖上游产物,而该产物本身的依赖关系仅记录在独立发布的构件与产物中。最终,完整的依赖结构被碎片化地分散于异构公共产物之间,其复杂性与递归深度远超人类追踪能力。我们提出ModSleuth这一代理系统,能从公共产物中递归重构基于源级实证证据的LLM依赖图。研究发现,当前主要挑战已非信息提取,而在于定义何种关系构成依赖,以及协调不一致文档中的构件引用。我们通过形式化框架应对这些挑战:区分直接与间接依赖,通过操作中心关系表征异构管道角色,并跨名称、版本与仓库解析构件身份。将ModSleuth应用于四个富含公共产物的LLM发布版本,我们恢复了1,060个经源验证的依赖关系,构建出现代LLM开发的大规模依赖图。这些图谱揭示了多跳许可义务、训练-评估耦合、发布产物与训练时构件的差异,以及难以通过常规手段发现的文档不一致性。我们开源ModSleuth及其生成的依赖图,以支持对现代LLM日益复杂生态系统的透明化分析。
稀疏注意力机制降低了长上下文大语言模型推理时的计算量和内存带宽消耗。然而,仍存在两个关键挑战:(1)KV缓存容量随序列长度增长,卸载至CPU内存会引入PCIe传输瓶颈;(2)稀疏选择步骤本身仍保持O(T²)复杂度,在长上下文场景下可能占据注意力计算的主要成本。我们提出SparDA——一种解耦稀疏注意力架构,在查询、键、值之外引入第四层投影:预测器。该预测器可预判下一层所需的KV块,实现前瞻性选择,使GPU到CPU的预取与当前层执行重叠。由于预测器与注意力查询解耦,我们的分组查询注意力实现方案在每个GQA组中使用一个预测头,相较于原始多头选择器降低了选择开销。SparDA仅增加少于0.5%的参数,通过匹配原始选择器的注意力分布仅训练预测投影。在两个稀疏预训练的8B模型上,SparDA在保持或略微提升精度的同时,相较于稀疏注意力卸载基线实现了高达1.25倍的预填充加速和1.7倍的解码加速。通过支持单GPU上更大的可行批量大小,SparDA进一步使解码吞吐量比未卸载的稀疏基线提升高达5.3倍。我们的源代码已开源至https://github.com/NVlabs/SparDA。