每日精选AI研究论文及翻译
训练稳定性始终是大语言模型强化学习中的核心挑战。策略滞后、异步训练以及训练与推理引擎的不匹配,都会导致行为策略与当前策略产生偏差,进而引发训练崩溃风险。重要性采样为这种分布偏移提供了理论修正方案,但存在高方差问题;现有的令牌级裁剪和序列级归一化等改进方法缺乏统一的理论基础。我们提出变分序列级软策略优化方法。通过将方差缩减融入提案分布的变分框架,该方法推导出可直接作用于序列级重要性权重且无需长度归一化的闭式重塑核。数学推理基准测试表明,该方法在高达64倍的策略滞后率和完全异步执行环境下仍能保持训练稳定,并在稠密模型与专家混合模型上均取得持续性能提升。代码已开源:https://github.com/FloyedShen/VESPO
近期,大型推理模型(LRM)通过长链思维(CoT)在复杂推理任务上的能力显著提升。然而,该方法常导致大量冗余,影响计算效率并造成实时应用中的显著延迟。最新研究表明,过长的推理链往往与正确性无关,甚至可能损害准确性。在对该现象进一步深入分析时,我们意外地发现并通过实验验证:LRM实际上隐式地知道何时应停止思考,但这种能力被当前采样范式所掩盖。受此启发,我们提出SAGE(自我感知引导高效推理)这一新型采样范式,以释放这种高效推理潜力。此外,将SAGE作为混合采样策略整合至基于群体的强化学习中(SAGE-RL),可使SAGE-RL有效将SAGE发现的高效推理模式融入标准pass@1推理,在多个高难度数学基准测试中显著提升LRM的推理准确性与效率。
扩展现实(XR)需要能够响应用户真实世界动作追踪的生成模型,然而现有视频世界模型仅能接受文本或键盘输入等粗略控制信号,这限制了其在具身交互中的应用。我们提出了一种以人为中心的视频世界模型,该模型同时支持头部追踪位姿和关节级手部位姿的条件输入。为此,我们评估了现有扩散变换器的条件控制策略,并提出了一种有效的三维头手控制机制,实现了灵巧的手-物交互。基于该策略,我们训练了双向视频扩散教师模型,并将其蒸馏为可生成以自我为中心虚拟环境的因果交互系统。通过人类受试者评估表明,相较于相关基线,该生成现实系统不仅提升了任务执行效能,还显著提高了用户对执行动作的操控感知水平。
视觉类比学习通过演示而非文本描述实现图像操控,使用户能够指定难以用语言精确表达的复杂变换。给定三元组{a, a', b},其目标是生成b',使得a与a'的关系类比于b与b'的关系。现有方法采用单一低秩自适应(LoRA)模块将文本到图像模型适配于此任务,但存在根本性局限:试图通过固定适配模块捕捉多样化的视觉变换空间会制约泛化能力。受最新研究启发(该研究表明受限域中的LoRA模块可构成具有语义意义且可插值的空间),我们提出LoRWeB这一新方法,通过动态组合学习到的变换基元,在推理阶段为每个类比任务定制模型——通俗而言即"在LoRA空间中选择合适点位"。我们引入两个核心组件:(1)可学习的LoRA基模块组,用于张成不同视觉变换的空间;(2)轻量级编码器,根据输入类比对动态选择并加权这些基LoRA模块。综合评估表明,我们的方法实现了最先进性能,并显著提升了对未见视觉变换的泛化能力。研究结果证明,LoRA基分解是实现灵活视觉操控的有效方向。代码与数据详见:https://research.nvidia.com/labs/par/lorweb
解码技术介于语言模型与其所有应用之间,却仍被视作启发式的参数调优过程。我们认为解码应当被理解为一种原则化的优化层:在每个标记生成步骤中,我们在概率单纯形上求解一个正则化问题,以平衡模型得分与结构化偏好及约束。这一统一框架不仅将贪婪解码、Softmax采样、Top-K、Top-P及Sparsemax类稀疏方法收束为特例,更通过最优性条件揭示了它们的共性结构。更重要的是,该框架使得无需依赖经验法则即可设计新型解码器。我们通过设计Best-of-K(BoK)解码器验证了这一理念——这是一种针对多样本流程(自洽性校验、重排序、验证器选择)的KL锚定覆盖目标。BoK致力于在固定K样本预算内覆盖优质候选序列的概率,并提升了实证性能。实验表明,此类样本能显著提升准确率,例如在高温采样条件下,Qwen2.5-Math-7B模型在MATH500数据集上的表现提升了18.6%。
人类能够在杂乱环境中通过以自我为中心的感知重新排列物体,在无需全局坐标系的情况下应对遮挡问题。受此能力启发,我们研究了基于单目视觉的移动机器人长时序多物体非抓取式重排任务。我们提出EgoPush框架,该策略学习框架仅需以自我为中心的视觉感知即可实现物体重排,无需依赖在动态场景中容易失效的显式全局状态估计。EgoPush设计了物体中心的潜空间来编码物体间的相对空间关系(而非绝对位姿),使拥有特权信息的强化学习教师模型能够从稀疏关键点中联合学习潜状态与移动动作,随后将其蒸馏为纯视觉学生策略。为缩小全知教师与局部观测学生之间的监督差距,我们将教师的观测限制在视觉可获取的线索范围内,从而诱导出可从学生视角恢复的主动感知行为。针对长时序任务中的信用分配问题,我们采用时序衰减的阶段式完成奖励机制,将重排任务分解为阶段级子问题。大量仿真实验表明,EgoPush在成功率上显著优于端到端强化学习基线,消融实验验证了各设计模块的有效性。我们进一步在真实移动平台上实现了零样本仿真到现实的迁移。代码与视频详见https://ai4ce.github.io/EgoPush/。
随着具身智能体在虚拟现实、远程呈现和数字人应用中的核心地位日益凸显,其动作生成需突破语音驱动手势的局限:智能体应能转向用户、响应其移动并保持自然视线。现有方法缺乏这种空间感知能力。我们提出了首个实时全因果的空间感知对话动作生成方法,填补了这一空白,该方法可部署于流式VR头显。基于用户位置和对话音频,我们的方法能生成全身动作,在实现语音手势同步的同时,根据用户方位调整智能体朝向。该架构结合了基于因果Transformer的变分自编码器(含交错潜变量令牌以实现流式推理)与基于用户轨迹和音频的条件流匹配模型。为支持多样化视线偏好,我们引入带分类器无关指导的视线评分机制,实现学习与控制解耦:模型从数据中学习自然空间对齐,而用户可在推理阶段调节眼神接触强度。在Embody 3D数据集上,本方法以超过300 FPS的速度(比非因果基线快3倍)达到最优动作质量,同时精准捕捉自然对话中的细微空间动态。我们在实时VR系统中验证了该方法,实现了空间感知对话智能体的实时部署。详情请参阅https://evonneng.github.io/sarah/。
紧凑型预训练双向编码器在计算和内存资源受限的工业自然语言处理领域始终是中流砥柱。其有效性源于自注意力机制能够通过序列级并行化实现高质量双向上下文建模,这一特性已被BERT式架构广泛验证。近期提出的Avey模型作为一种无需注意力的自回归替代方案,天然适配仅编码器范式。本文针对仅编码器范式重构Avey模型,并提出包括解耦静态动态参数化、稳定性导向归一化及神经压缩在内的多项架构创新。实验表明,重构后的架构在标准词元分类和信息检索基准测试中持续优于四种广泛使用的基于Transformer的编码器,且在长上下文场景下具有更优的扩展效率。
可验证奖励强化学习(RLVR)已被证明能有效增强大型多模态模型的视觉反思与推理能力。然而,现有数据集主要源自小规模人工构建或既有资源的重组,这限制了数据的多样性和覆盖范围,从而制约了模型性能的进一步提升。为此,我们推出DeepVision-103K——一个面向RLVR训练的综合性数据集,涵盖多样化的K12数学主题、广泛的知识点以及丰富的视觉元素。基于DeepVision训练的模型在多模态数学基准测试中表现优异,并能有效泛化至通用多模态推理任务。进一步分析表明,经过训练模型的视觉感知、反思与推理能力均得到增强,验证了DeepVision对推进多模态推理的有效性。数据地址:https://huggingface.co/datasets/skylenage/DeepVision-103K
现有在线视频分割模型通常将逐帧分割器与复杂的专用跟踪模块相结合。虽然有效,但这些模块会带来显著的架构复杂性和计算开销。近期研究表明,当具备足够容量并经过大规模预训练后,纯视觉Transformer编码器无需专用模块即可实现精确的图像分割。受此启发,我们提出纯编码器视频掩码Transformer模型,这是一种无需专用跟踪模块的简易编码器架构视频分割方案。为实现纯编码器ViT中的时序建模,该模型引入了轻量级查询传播机制,通过复用前一帧的查询实现跨帧信息传递。为平衡新内容适应性,模型采用查询融合策略,将传播查询与一组时序无关的学习查询相结合。由此,该模型在无需增加复杂度的前提下获得了跟踪器优势,在保持竞争力的精度同时实现5-10倍加速,基于ViT-L骨干网络最高可达160 FPS。代码地址:https://www.tue-mps.org/videomt/
我们提出4RC,一种用于单目视频四维重建的统一前馈框架。与现有方法通常将运动从几何中解耦或仅生成稀疏轨迹、双视角场景流等有限四维属性不同,4RC通过学习整体性四维表征,联合捕捉稠密场景几何与运动动态。其核心创新在于引入"一次编码、任意时空查询"的全新范式:Transformer主干网络将整个视频编码为紧凑的时空潜空间,条件解码器可从中高效查询任意目标时间戳下任意帧的三维几何与运动信息。为优化学习过程,我们采用最小分解形式表示每视角四维属性,将其解构为基础几何和时序相关相对运动。大量实验表明,4RC在多种四维重建任务中均优于现有及同期方法。
强化学习为学习控制策略提供了一个框架,能够生成模拟角色的多样化运动。然而,此类策略常利用人类或物理机器人无法实现的高频非自然信号,导致其难以反映真实世界行为。现有研究通过添加惩罚动作时序大幅变化的奖励项来解决该问题,但这类方法通常需要大量调参工作。我们提出采用动作雅可比惩罚项,通过自动微分直接对模拟状态变化引起的动作变化进行惩罚。该方法无需任务特定调参即可有效消除不现实的高频控制信号。虽然动作雅可比惩罚项效果显著,但在传统全连接神经网络架构下会引入大量计算开销。为此,我们提出名为线性策略网络的新型架构,可大幅降低训练过程中计算动作雅可比惩罚项的计算负担。此外,线性策略网络无需参数调优,相比基线方法具有更快的学习收敛速度,且在推理时的查询效率优于全连接神经网络。实验表明,结合动作雅可比惩罚项的线性策略网络能够学习生成平滑信号的控制策略,成功解决包括后空翻等动态运动及多种高难度跑酷技能在内的各类运动模仿任务。最后,我们将该方法应用于为配备机械臂的四足物理机器人创建动态运动控制策略。
扩散语言模型因迭代去噪过程导致推理成本高昂,亟需高效剪枝方法。现有剪枝启发式方法主要沿袭自自回归大语言模型,通常保留注意力汇聚令牌,因为自回归模型中的汇聚令牌可作为稳定的全局锚点。本文发现该假设不适用于扩散语言模型:在完整生成轨迹中,注意力汇聚位置的方差显著更高(通过主导汇聚位置在时间步间的偏移程度衡量),表明扩散模型的汇聚点常具有瞬时性,其结构重要性低于自回归模型。基于此发现,我们提出**汇聚感知剪枝法**,可自动识别并剪枝扩散模型中不稳定的汇聚点(先前研究通常为自回归大语言模型保留汇聚点)。无需重新训练,本方法在匹配计算量下实现了更优的质量-效率平衡,超越了现有强基准剪枝方法。代码已开源:https://github.com/VILA-Lab/Sink-Aware-Pruning。
大型视觉语言模型(LVLM)已取得显著进展,但其常受语言偏见影响,导致答案生成未依赖视觉证据。尽管先前研究尝试通过解码策略、架构调整或精选指令数据来缓解此问题,但通常缺乏对单个训练样本或词元实际从图像中获益程度的量化评估。本研究提出视觉信息增益(VIG)——一种基于困惑度的指标,用于衡量视觉输入带来的预测不确定性降低程度。VIG支持在样本和词元级别进行细粒度分析,能有效突显颜色、空间关系和属性等视觉基础元素。基于此,我们提出VIG引导的选择性训练方案,优先处理高VIG值的样本和词元。该方法通过专注视觉信息丰富的样本与词元,在显著减少监督量的同时提升视觉基础能力、缓解语言偏见,最终实现更优性能。
基于大语言模型(LLM)并集成工具功能的对话智能体,在固定任务导向的对话数据集上表现优异,但仍易受用户引发的意外错误影响。与侧重错误预防的研究不同,本研究聚焦于错误恢复机制,其核心在于精准诊断错误对话语境并执行有效的恢复方案。在现实约束下(因高昂成本与时间消耗而无法进行模型微调或提示修改),我们探究智能体能否从存在语境缺陷的交互中恢复,以及如何在不改变模型参数与提示的前提下调整其行为。为此,我们提出推理植入(ReIn)方法——一种测试时干预技术,将初始推理逻辑植入智能体的决策流程。具体而言,外部植入模块会识别对话语境中预定义的错误并生成恢复方案,随后将该方案融入智能体的内部推理过程以引导纠错行动,且无需修改其参数或系统提示。我们通过系统化模拟阻碍用户目标达成的对话失败场景(用户模糊请求与未支持请求)来评估ReIn的效果。在不同智能体模型与植入模块的组合实验中,ReIn显著提升了任务成功率,并能泛化至未见错误类型。此外,其性能持续优于显式提示修改方法,凸显其作为高效实时解决方案的实用价值。对其运行机制(特别是与指令层级结构的关联)的深入分析表明,结合ReIn定义恢复工具可作为提升对话智能体鲁棒性的安全有效策略,且无需修改主干模型或系统提示。
高效随机优化方法通常将确定性场景下表现良好的更新方向与适应随机扰动的机制相结合。虽然Adam采用自适应矩估计来增强稳定性,但Muon通过正交化动量利用权重层的矩阵结构,在大型语言模型训练中展现出卓越性能。我们提出新型优化器NAMO及其对角扩展版本NAMO-D,首次实现了正交化动量与基于范数的Adam型噪声自适应原理性融合。NAMO采用单一自适应步长缩放正交化动量,在保持正交性的同时以可忽略的额外成本改进了Muon。而NAMO-D则通过带截断项的对角矩阵右乘正交化动量,该设计既能实现神经元级噪声自适应,又符合常见的近块对角Hessian矩阵结构。在标准假设下,我们建立了两种算法在确定性环境中的最优收敛速率,并证明在随机环境中其收敛保证能自适应随机梯度的噪声水平。GPT-2模型预训练实验表明,NAMO和NAMO-D均优于AdamW和Muon基线,其中NAMO-D通过引入平衡"保持良好条件更新方向"与"利用细粒度噪声自适应"这两个竞争目标的截断超参数,进一步实现了性能提升。
针对大语言模型的评估与对齐流程日益依赖基于LLM的评判器,其行为由自然语言评分标准指导并通过基准测试验证。我们发现该流程中存在一个先前未被充分认识的脆弱性,称之为"标准诱导偏好漂移"。即使评分标准的修改通过了基准验证,仍可能对评判器在目标领域的偏好产生系统性、方向性偏移。由于评分标准作为高层决策接口,此类漂移可能源于看似自然且保持准则的修改,并难以通过聚合基准指标或有限抽检被发现。我们进一步证明该漏洞可通过基于评分标准的偏好攻击被利用——合规的评分标准修改会使评判结果偏离目标领域固定的人类或可信参考标准,系统性地诱发RIPD现象,导致目标领域准确率最高下降9.5%(有益性)和27.9%(无害性)。当这些评判结果用于生成下游后训练所需的偏好标签时,诱导偏差将通过对齐流程传播并内化至训练策略中,最终导致模型行为出现持续性、系统性的偏移。总体而言,我们的研究揭示评分标准是敏感且可操纵的控制接口,凸显了超越评估器可靠性范畴的系统级对齐风险。代码已开源:https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface。警告:部分内容可能包含潜在有害信息,请读者谨慎阅读。
在调查和集体评估中,为降低潜在群体属性不确定性而进行信息采集时,需在现实成本约束和数据缺失条件下分配有限的提问资源。尽管大语言模型支持自然语言的自适应多轮交互,现有多数启发方法仅针对固定受访群体优化提问策略,未能在响应不完整时动态调整受访者选择或利用群体结构特征。为此,我们研究自适应群体启发机制——一种在明确查询与参与预算下,智能体自适应选择问题与受访者的多轮交互框架。我们提出理论支撑的双模块框架:结合(i)基于LLM的预期信息增益目标对候选问题评分,与(ii)异质图神经网络传播机制,通过聚合已观测响应和参与者属性来补全缺失响应并指导每轮受访者选择。该闭环流程通过结构化相似性推断群体层面响应,同时仅查询少量信息量最大的个体。在三个真实世界观点数据集上的实验表明,我们的方法在受限预算下持续提升群体响应预测精度,其中在CES数据集上以10%的受访者预算实现超过12%的相对性能提升。