HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

41 papers found

魔鬼藏身于蜕变之书：自我进化AI社会中人类安全性的永恒消逝
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

Feb 10

ByChenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu

197

基于大型语言模型构建的多智能体系统的出现，为可扩展的集体智能和自我进化提供了前景广阔的范式。理想情况下，这类系统应在完全闭环中实现持续自我改进，同时保持稳健的安全对齐——我们将这一组合称为自我进化三元悖论。然而，我们通过理论推演和实证研究表明：同时满足持续自我进化、完全隔离运行和安全恒常性的智能体社会是不可能存在的。借助信息论框架，我们将安全性形式化为与人类价值分布的偏离程度，从理论上证明隔离式自我进化会诱发统计盲区，导致系统安全对齐出现不可逆的退化。来自开放式智能体社区（Moltbook）和两个封闭式自进化系统的定性与定量结果，均呈现出与我们理论预测相吻合的安全侵蚀现象。我们进一步提出若干解决方案以缓解已识别的安全隐患。本研究确立了自进化AI社会的根本性局限，将讨论焦点从症状驱动的安全补丁转向对内在动力学风险的原理性认知，强调了引入外部监督或构建新型安全保持机制的必要性。

组合式强化学习：为大型语言模型构建可验证提示的强化学习框架
Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Feb 12

ByXin Xu, Clive Bai, Kai Yang, Tianhao Chen, Yangkun Chen, Weijie Liu, Hao Chen, Yang Wang, Saiyong Yang, Can Yang

大规模可验证提示是强化学习与可验证奖励（RLVR）成功的关键，但这些提示包含大量无信息量的样本且扩展成本高昂。近期研究聚焦于通过优先处理通过率为0的困难提示来更高效利用有限训练数据。然而随着训练推进，通过率为1的简单提示也日益普遍，反而降低了有效数据规模。为此我们提出Composition-RL——一种针对通过率1提示的简易有效方法，旨在更好地利用有限的可验证提示。具体而言，该方法自动将多个问题组合成新的可验证问题，并将这些组合提示用于强化学习训练。在4B至30B不同模型规模上的大量实验表明，Composition-RL能持续提升基于原始数据集训练的RL模型的推理能力。通过采用逐步增加组合深度的课程学习变体，性能可得到进一步强化。此外，该方法还能通过组合来自不同领域的提示实现更有效的跨领域强化学习。代码、数据集及模型已发布于https://github.com/XinXU-USTC/Composition-RL。

DeepGen 1.0：面向图像生成与编辑进阶的轻量化统一多模态模型
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Feb 12

ByDianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang

当前用于图像生成与编辑的统一多模态模型通常依赖海量参数规模（如超过100亿参数），导致训练成本与部署资源难以承受。本研究提出DeepGen 1.0——一个仅需50亿参数的轻量化统一模型，其综合能力可媲美甚至超越规模更大的同类模型。为克服紧凑模型在语义理解与细粒度控制方面的局限，我们创新性地提出堆叠通道桥接技术（SCB），该深度对齐框架通过提取视觉语言模型多层特征，并与可学习的"思维令牌"融合，为生成主干网络提供结构化、富含推理逻辑的引导。我们进一步设计了以数据为中心的渐进式三阶段训练策略：（1）基于大规模图文对及编辑三元组的对齐预训练，实现视觉语言模型与扩散Transformer的表征同步；（2）在高质量混合任务集上进行联合监督微调，涵盖生成、编辑与推理任务以培养全能能力；（3）采用混合奖励引导策略优化的强化学习，通过融合多类奖励函数与监督信号，在保持训练稳定性、避免视觉伪影的同时，显著提升生成质量与人类偏好对齐度。尽管仅使用约5000万样本进行训练，DeepGen 1.0在多项基准测试中表现领先：在WISE基准上以28%优势超越800亿参数的HunyuanImage，在UniREditBench上以37%优势超越270亿参数的Qwen-Image-Edit。通过开源训练代码、模型权重及数据集，我们为统一多模态研究提供了高效高性能的民主化替代方案。

GigaBrain-0.5M：基于世界模型强化学习的大语言视觉模型
GigaBrain-0.5M: a VLA That Learns From World Model-Based Reinforcement Learning

Feb 12

ByGigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

直接根据当前观测预测多步动作块的视觉-语言-动作（VLA）模型，因场景理解受限和未来预测能力薄弱而存在固有局限。相比之下，基于海量视频数据预训练的视频世界模型展现出强大的时空推理与精准的未来预测能力，自然成为增强VLA学习的理想基础。为此，我们提出GigaBrain-0.5M*——一款通过世界模型强化学习训练的VLA模型。该模型基于在超1万小时机器人操作数据上预训练的GigaBrain-0.5（其中间版本目前在国际RoboChallenge基准中排名第一），进一步通过RAMP（基于世界模型条件策略的强化学习）框架融合世界模型强化学习，实现稳健的跨任务适应能力。实验表明，RAMP相较RECAP基线取得显著性能提升，在叠衣服、装箱和意式咖啡制备等高难度任务中性能提高约30%。关键的是，GigaBrain-0.5M*展现出可靠的长周期执行能力，如我们项目页面https://gigabrain05m.github.io 上的实机部署视频所验证，该模型能持续完成复杂操作任务且零失败率。

超越教师学习：基于奖励推断的广义策略蒸馏方法
Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Feb 12

ByWenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin

同策略蒸馏（OPD）通过让学生模型在自身生成的轨迹上与教师模型的逻辑分布对齐，已在提升学生模型性能方面展现出显著的经验性优势，其表现往往优于异策略蒸馏和强化学习范式。本文首先从理论上证明，OPD是稠密KL约束强化学习的一种特殊形式——其中奖励函数与KL正则化始终等权重组合，且参考模型可为任意模型。基于此，我们提出广义同策略蒸馏框架，通过引入灵活可变的参考模型和奖励缩放因子来调控奖励项与KL正则化的相对权重，从而扩展了标准OPD的目标函数。在数学推理和代码生成任务上的系统性实验揭示了两项新发现：（1）当奖励缩放因子大于1时（即奖励外推策略，简称ExOPD），在不同规模的师生模型配对中均能稳定超越标准OPD。特别是在将领域专家知识（通过对同一学生模型实施领域特定强化学习获得）回传至原学生模型的场景中，ExOPD甚至能突破教师模型的性能边界，实现对各领域教师的反超。（2）在ExOPD基础上进一步发现，在强师弱生的蒸馏场景中，选择教师模型进行强化学习前的初始版本作为参考模型实施奖励修正，可提供更精确的奖励信号并进一步提升蒸馏性能。但该方法需获取教师模型的预强化学习版本，且会增加计算开销。我们的研究有望为同策略蒸馏的未来探索提供新视角。

MOSS-Audio-Tokenizer：面向未来音频基础模型的规模化音频分词器
MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Feb 11

ByYitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu

离散音频分词器是赋予大语言模型原生音频处理与生成能力的关键基础。尽管近期取得进展，现有方法往往依赖预训练编码器、语义蒸馏或异构的CNN架构。这些设计引入了固定的归纳偏置，限制了重建保真度并阻碍了有效扩展。本文主张离散音频分词应采用完全端到端的方式，通过同质化可扩展架构进行学习。为此，我们首先提出CAT（基于Transformer的因果音频分词器），这是一种纯Transformer架构，能够从头开始联合优化编码器、量化器和解码器以实现高保真重建。基于CAT架构，我们开发了MOSS-Audio-Tokenizer——一个拥有16亿参数的大规模音频分词器，在300万小时多样化通用音频数据上完成预训练。实验表明，这种由同质化因果Transformer模块构建的简单端到端方法具备优雅的扩展性，并在多音频领域支持高保真重建。在语音、环境声和音乐场景下，MOSS-Audio-Tokenizer在多种码率下持续超越现有编解码器，且随规模扩大呈现可预测的性能提升。值得注意的是，利用本模型的离散标记，我们开发出首个纯自回归TTS系统，其性能超越此前非自回归与级联系统。此外，MOSS-Audio-Tokenizer无需辅助编码器即可实现具有竞争力的ASR性能。我们的研究将CAT架构确立为新一代原生音频基础模型的统一可扩展接口。

NarraScore：通过分层情感控制连接视觉叙事与音乐动态
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Feb 9

ByYufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu

为长视频合成连贯配乐仍是一项艰巨挑战，目前受限于三大关键障碍：计算可扩展性、时序连贯性，以及最关键的——对叙事逻辑演变的普遍语义盲区。为突破这些局限，我们提出NarraScore分层框架，其核心思想在于将情感视为叙事逻辑的高密度压缩。我们创新性地利用冻结视觉语言模型作为连续情感感知器，将高维视觉流提炼为稠密的叙事感知效价-唤醒轨迹。在机制设计上，NarraScore采用双分支注入策略协调全局结构与局部动态：全局语义锚点确保风格稳定性，而精准的令牌级情感适配器通过直接元素残差注入调节局部张力。这种极简设计绕过了稠密注意力与架构复制的瓶颈，有效缓解了数据稀缺导致的过拟合风险。实验表明，NarraScore以可忽略的计算开销实现了最优的连贯性与叙事契合度，为长视频配乐生成建立了全自动范式。

法律思想家：动态环境下的深度研究型法律智能体
LawThinker: A Deep Research Legal Agent in Dynamic Environments

Feb 12

ByXinyu Yang, Chenlong Deng, Tongyu Wen, Binyu Xie, Zhicheng Dou

法律推理不仅要求结果正确，更需要遵循程序合规的推理过程。然而现有方法缺乏对中间推理步骤的验证机制，导致诸如法条引用不当等错误能在推理链中未被察觉地传播。为此，我们提出LawThinker——一种面向动态司法环境的自主法律研究智能体，采用“探索-验证-记忆”策略。其核心思想是将验证作为每次知识探索后的原子化操作：通过DeepVerifier模块从知识准确性、事实与法律关联性、程序合规性三个维度检验每次检索结果，并配备记忆模块实现长周期任务中的跨轮次知识复用。在动态基准J1-EVAL上的实验表明，LawThinker较直接推理方法提升24%，较基于工作流的方法提升11%，且在过程导向指标上表现尤为突出。在三个静态基准上的评估进一步验证了其泛化能力。代码已开源：https://github.com/yxy-919/LawThinker-agent。

思维与草拟：通过逻辑重构实现光学解压缩
Thinking with Drafting: Optical Decompression via Logical Reconstruction

Feb 12

ByJingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan

现有 multimodal 大语言模型已实现高保真的视觉感知与探索性视觉生成。然而，复杂推理任务中仍存在精确性悖论：光学感知系统能转录符号却无法捕捉逻辑拓扑结构，而基于像素的生成模型会产生缺乏数学精确性的视觉伪影。为弥合这一鸿沟，我们提出将视觉输入推理重新定义为光学解压缩——即从压缩的视觉标记中重建潜在逻辑结构的过程。以"解析即推理"为准则，我们引入思维草图法（TwD），该方法采用极简领域特定语言（DSL）作为基础中间表示。与直接幻觉生成答案的标准方法不同，TwD强制模型将其心智模型草拟为可执行代码，通过确定性视觉证明实现自我验证。为此我们提出视觉代数基准测试集VisAlg。实验表明TwD可成为更优的认知支架。本研究构建了一个闭环系统，使视觉生成不再作为创造性输出，而是充当逻辑验证器，为视觉推理提供了可泛化的实现路径。

思之愈久，探之愈深：基于长度激励强化学习的上下文探索方法
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Feb 12

ByFuting Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin

实现有效的测试时扩展要求模型具备情境探索能力——即在单一连续语境中生成、验证并优化多重推理假设的内在能力。基于状态覆盖理论的分析揭示了一个关键瓶颈：虽然更广泛的状态覆盖需要更长的推理轨迹，但在自回归生成过程中，这类序列的采样概率会呈指数级衰减，这一现象被我们称为"浅层探索陷阱"。为突破此局限，我们提出长度激励探索方法。该方案通过长度奖励与冗余惩罚的显式结合，以简单而有效的方式激励模型进行更深入探索，从而以两步法实现状态覆盖最大化。跨模型（Qwen3、Llama）的综合实验表明，该方法能有效激发情境探索能力。实验结果显示，我们的方法在领域内任务上平均提升4.4%，在领域外基准测试中获得2.7%的性能增益。

RISE：基于组合世界模型的自我改进机器人策略
RISE: Self-Improving Robot Policy with Compositional World Model

Feb 11

ByJiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li

尽管模型容量与数据获取持续扩展，视觉-语言-动作模型在接触密集型动态操作任务中仍显脆弱——细微的执行偏差会累积导致任务失败。虽然强化学习为鲁棒性提供了理论路径，但现实世界中的在线强化学习受限于安全风险、硬件成本与环境重置难题。为弥合这一鸿沟，我们提出RISE框架：一种基于想象的机器人强化学习可扩展方案。其核心是组合式世界模型，该模型（i）通过可控动力学系统预测多视角未来状态，（ii）利用进度价值模型评估想象结果，为策略改进生成信息化的优势函数。这种组合设计使得状态与价值评估能采用最适合且相互独立的架构与目标。这些组件被整合进闭环自优化流程，持续生成虚拟推演、估算优势函数，并在想象空间更新策略，无需昂贵的物理交互。在三大现实挑战性任务中，RISE相较现有技术实现显著提升：动态积木分拣任务绝对性能提高超35%，背包整理任务提升45%，箱体封装任务提升35%。

意外之笔：矢量素描中的渐进式语义错觉
Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching

Feb 12

ByHuai-Hsun Cheng, Siang-Ling Zhang, Yu-Lun Liu

传统视觉错觉通常依赖于多视角一致性等空间操控技术。在本研究中，我们提出了渐进式语义错觉——一种创新的矢量草图绘制任务，通过逐笔添加使单幅草图实现剧烈的语义转换。我们开发了"惊鸿一笔"生成框架，通过优化矢量笔触使其在不同绘制阶段满足不同的语义解读。该任务的核心挑战在于"双重约束"：初始前缀笔触既要构成连贯物体（如鸭子），又需作为添加增量笔触后第二概念（如绵羊）的结构基础。为此，我们提出基于双分支分数蒸馏采样机制的序列感知联合优化框架。与固定初始状态的序列方法不同，我们的方法能动态调整前缀笔触，探索适用于两个目标的"共同结构子空间"。此外，我们创新性地提出了叠层损失函数，通过强制空间互补性确保结构整合而非简单遮挡。大量实验表明，本方法在识别度和错觉强度上显著优于现有基线，成功将视觉字谜从空间维度拓展至时间维度。项目页面：https://stroke-of-surprise.github.io/

χ₀：通过驯服分布不一致性实现资源感知的鲁棒操作
χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

Feb 9

ByChecheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan

传统上，高可靠性长周期机器人操作依赖于大规模数据和算力来理解复杂现实世界的动态特性。但我们发现，实现现实世界鲁棒性的主要瓶颈并非仅源于资源规模，而是源于人类示范数据分布、策略学习所得的归纳偏好以及测试时执行分布之间的分布偏移——这种系统性不一致会导致多阶段任务中出现误差累积。为缓解这些不一致性，我们提出χ₀框架，该资源高效型框架通过专门设计的有效模块实现生产级机器人操作鲁棒性。我们的方法基于三大技术支柱：（一）模型算术，一种权重空间融合策略，可高效吸收从物体外观到状态变化的多样化示范分布；（二）阶段优势值，一种阶段感知的优势估计器，通过提供稳定密集的进度信号，克服了传统非阶段方法的数值不稳定性；（三）训练-部署对齐机制，通过时空增强、启发式DAgger修正和时序分块平滑来弥合分布差距。χ₀使两组双臂机器人能够协作完成长周期衣物操作任务，涵盖从铺平、折叠到悬挂不同衣物的全流程。我们的方法展现出高可靠性自主能力，可实现系统从任意初始状态连续24小时不间断运行。实验验证表明，χ₀仅使用20小时数据和8块A100 GPU，其成功率就超越最先进的π₀.5模型近250%。我们将公开代码、数据与模型以促进社区发展。

EgoHumanoid：通过无机器人本体视角演示解锁野外移动操作能力
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Feb 10

ByModi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen

人类演示能提供丰富的环境多样性且具备天然的可扩展性，因此成为机器人遥操作的理想替代方案。尽管该范式已推动机械臂操控技术的发展，但其在更具挑战性、数据需求更大的人形机器人移动操控领域的潜力仍待探索。我们提出EgoHumanoid框架，首次通过大量第一视角人类演示数据与有限机器人数据协同训练视觉-语言-动作策略，使人形机器人能在多样化现实环境中执行移动操控任务。为弥合人类与机器人之间的本体差异（包括物理形态和视角差异），我们建立了从硬件设计到数据处理的系统性对齐流程：开发了便携式可扩展人类数据采集系统，并制定实用采集协议以提升可迁移性。该人形机器人对齐流程的核心包含两个关键组件：视角对齐通过降低相机高度与视角差异引起的视觉域差异；动作对齐将人类运动映射至统一且运动学可行的人形机器人控制空间。大量真实环境实验表明，引入无机器人参与的第一视角数据后，系统性能较纯机器人基线提升51%，尤其在未知环境中表现突出。我们的分析进一步揭示了哪些行为能有效迁移，以及人类数据规模化应用的潜力。

dVoting：面向分布式大语言模型的快速投票机制
dVoting: Fast Voting for dLLMs

Feb 12

BySicheng Feng, Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

扩散大语言模型(dLLMs)代表了超越自回归建模的新范式，在保持竞争力性能的同时，天然支持灵活的解码过程。具体而言，dLLMs能够并行生成任意位置的标记，这为其带来了显著的并行测试时扩展潜力，而该潜力此前受限于自回归建模的严重低效性。本文提出dVoting技术，这是一种无需训练即可增强推理能力的快速投票方法，仅需可接受的计算开销。dVoting的提出基于以下观察：对于同一提示的多个生成样本，大部分标记预测保持稳定，而模型性能实际上由少数存在跨样本波动的关键标记决定。借助dLLMs的任意位置生成能力，dVoting通过采样、一致性分析识别不确定标记、投票重生成等步骤进行迭代优化，直至收敛。大量实验表明，dVoting在多个基准测试中持续提升性能：GSM8K提升6.22%-7.66%，MATH500提升4.40%-7.20%，ARC-C提升3.16%-14.84%，MMLU提升4.83%-5.74%。代码已开源：https://github.com/fscdc/dVoting

Voxtral实时系统
Voxtral Realtime

Feb 11

ByAlexander H. Liu, Andy Ehrenberg, Andy Lo, Chen-Yo Sun, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Rohin Arora, Sanchit Gandhi, Sandeep Subramanian, Soham Ghosh, Srijan Mishra, Abhinav Rastogi, Alan Jeffares, Albert Jiang, Alexandre Sablayrolles, Amélie Héliou, Andrew Bai, Angele Lenglemetz, Anmol Agarwal, Anton Eliseev, Antonia Calvi, Arjun Majumdar, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Benjamin Tibi, Clémence Lanfranchi, Connor Chen, Corentin Barreau, Corentin Sautier, Cyprien Courtot, Darius Dabert, Diego de las Casas, Elliot Chane-Sane, Enguerrand Paquin, Faruk Ahmed, Federico Baldassarre, Gabrielle Berrada, Gaëtan Ecrepont, Gauthier Guinet, Genevieve Hayes, Georgii Novikov, Giada Pistilli, Guillaume Martin, Gunjan Dhanuka, Gunshi Gupta, Han Zhou, Indraneel Mukherjee, Irene Zhang, Jaeyoung Kim, Jan Ludziejewski, Jason Rute, Joachim Studnia, John Harvill, Jonas Amar, Josselin Somerville Roberts, Julien Tauran, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Laurence Aitchison, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Manan Sharma, Margaret Jennings, Marie Pellat, Mark Prins, Mathieu Poirée, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mert Unsal, Mia Chiquier, Nathan Grinsztajn, Neha Gupta, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomène Chagniot, Pierre Stock, Piotr Miłoś, Prateek Gupta, Pravesh Agrawal, Quentin Torroba, Ram Ramrakhya, Rishi Shah, Romain Sauvestre, Roman Soletskyi, Rosalie Millner, Sagar Vaze, Samuel Humeau, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Théo Cachet, Theo Simon Sorg, Thibaut Lavril, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Edwards, Tyler Wang, Valeriia Nemychnikova, Van Phung, Vedant Nanda, Victor Jouault, Virgile Richard, Vladislav Bataev, Wassim Bouaziz, Wen-Ding Li, William Marshall, Xinghui Li, Xingran Guo, Xinyu Yang, Yannic Neuhaus, Yihan Wang, Zaccharie Ramzi, Zhenlin Xu

我们推出Voxtral Realtime，这是一款原生流式自动语音识别模型，在亚秒级延迟下即可达到离线转录的同等质量。与通过分块或滑动窗口适配离线模型的方法不同，Voxtral Realtime采用端到端的流式训练方式，实现了音频流与文本流的显式对齐。我们的架构基于延迟流建模框架，引入了新型因果音频编码器和自适应RMS归一化技术以优化延迟调节。通过覆盖13种语言的大规模数据集进行预训练，在480毫秒延迟条件下，Voxtral Realtime的表现与最广泛应用的离线转录系统Whisper持平。本模型权重已基于Apache 2.0许可证开源发布。

稀疏视频生成技术推动现实世界超视野视觉语言导航发展
Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Feb 5

ByHai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li

为何视觉语言导航必须依赖详尽繁琐的语言指令？尽管细节描述能简化决策过程，但这种设定本质上与现实世界的导航需求相悖。理想情况下，智能体应具备在未知环境中仅凭简单高层意图自主导航的能力。实现这一愿景带来了严峻挑战：超视距导航（BVN）要求智能体在没有密集逐步指引的情况下定位远处不可见的目标。现有基于大语言模型（LLM）的方法虽擅长执行细致指令，却因依赖短视距监督常表现出目光短浅的行为。然而单纯延长监督范围会导致LLM训练失稳。本研究发现，视频生成模型天然受益于长视距监督以实现与语言指令的对齐，这使其特别适用于BVN任务。基于此发现，我们首次将视频生成模型引入该领域。但生成数十秒视频的惊人延迟使其难以实际部署。为此，我们提出SparseVideoNav框架，通过生成跨越20秒视距的稀疏未来场景引导轨迹推断，实现亚秒级推理速度，较未优化版本提升27倍。大量真实场景零样本实验表明，SparseVideoNav在BVN任务上的成功率达到顶尖LLM基线的2.5倍，并首次实现了在极具挑战性的夜间场景中的导航能力。

DeepSight：一体化语言模型安全工具包
DeepSight: An All-in-One LM Safety Toolkit

Feb 12

ByBo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu

随着大模型技术的快速发展，其安全性问题日益受到重视。当前大语言模型及多模态大语言模型的安全工作流程中，评估、诊断和对齐往往由独立工具完成。具体而言，安全评估仅能定位外部行为风险而无法探究内部根因，安全诊断则常脱离具体风险场景停留在可解释性层面。这种方式使得安全对齐缺乏对内部机制变化的专项解释，可能导致通用能力退化。为系统解决这些问题，我们提出开源项目DeepSight，实践评估-诊断一体化的新范式。该项目由评估工具集DeepSafe与诊断工具集DeepScan构成，具备低成本、可复现、高效率和高扩展性特点。通过统一任务与数据协议，我们构建了两个阶段间的关联，实现了安全评估从黑盒到白盒的洞察。此外，DeepSight是首个支持前沿AI风险评估、兼具安全评估与诊断功能的开源工具集。

规模化电商理解中的视觉-语言模型适配研究
Adapting Vision-Language Models for E-commerce Understanding at Scale

Feb 12

ByMatteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi

电子商务产品理解本质上需要从文本、图像和结构化属性中获取强大的多模态理解能力。通用视觉语言模型虽能实现可泛化的多模态潜在建模，但如何在保持通用性能的前提下，使其适应电子商务数据以属性为中心、多图像及存在噪声的特性，目前尚未形成系统化的成熟策略。本研究通过大规模实验表明，对通用视觉语言模型进行针对性适配能显著提升电商场景性能，同时保持广泛的多模态能力。此外，我们提出了一套创新的综合评估体系，涵盖深度产品理解、严格指令遵循及动态属性提取三大维度。

Gaia2：动态异步环境下大语言模型智能体的基准测试
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Feb 12

ByRomain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Gerard Moreno-Torres Bertran, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Vladislav Vorotilov, Mengjue Wang, Ian Yu, Amine Benhalloum, Grégoire Mialon, Thomas Scialom

我们推出Gaia2——一个在异步现实环境中评估大语言模型智能体的基准测试平台。与以往静态或同步评估不同，Gaia2引入了环境独立于智能体行动自主演化的场景，要求智能体在时间约束下运行，适应噪声干扰与动态事件，处理模糊信息并实现多智能体协作。每个场景均配有写入式行动验证器，支持细粒度的行动级评估，使Gaia2可直接用于基于可验证奖励的强化学习。我们对顶尖专有模型和开源模型的测试表明：GPT-5（高配版）以42%的pass@1得分位居综合榜首，但在时效性任务中表现不佳；Claude-4 Sonnet通过牺牲精度与速度控制成本；开源模型中Kimi-K2以21%的pass@1领先。这些结果揭示了推理能力、效率与鲁棒性之间的本质权衡，同时暴露出缩小“模拟与现实差距”的挑战。Gaia2基于开源智能体研究环境平台构建，采用消费级环境设计并具备易扩展特性。通过将Gaia2与基础ARE框架同步开源，我们旨在为学界提供灵活的基础设施，用于开发、评估和训练下一代实用智能体系统。

PISCO：基于稀疏控制的精确视频实例插入
PISCO: Precise Video Instance Insertion with Sparse Control

Feb 9

ByXiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu

人工智能视频生成领域正经历关键转型：从依赖大量提示工程与"优选"的通用生成，转向精细化可控生成与高保真后处理。在专业AI辅助影视制作中，实现精准定向修改至关重要。这一转变的核心在于视频实例插入技术——需将特定对象嵌入既有镜头的同时保持场景完整性。与传统视频编辑不同，该任务需满足多重要求：精确的时空定位、物理一致的场景交互、原始动态的真实还原，且需以最小用户操作实现。本文提出PISCO模型，这是一种支持任意稀疏关键帧控制的精准视频实例插入扩散模型。用户可指定单帧、起止帧或任意时间戳的稀疏关键帧，系统将自动传播物体外观、运动及交互特征。针对预训练视频扩散模型中稀疏条件引发的严重分布偏移，我们引入可变信息引导以实现鲁棒条件控制，采用分布保持时序掩码稳定时序生成，并结合几何感知条件实现逼真场景适配。此外构建了PISCO-Bench基准数据集，包含已验证的实例标注与配对纯净背景视频，采用参考与非参考感知指标进行评估。实验表明，在稀疏控制条件下PISCO持续优于强基线修复与视频编辑方法，且随控制信号增加呈现清晰单调的性能提升。项目页面：xiangbogaobarry.github.io/PISCO。

揭示隐含优势对称性：为何GRPO在探索与难度适应中举步维艰
Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

Feb 5

ByZhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu

具有可验证奖励的强化学习（RLVR），特别是GRPO方法，已成为激发大语言模型推理能力的标准技术。然而，其在探索效率和难度适应性方面的表现仍是开放难题。本文指出，这些瓶颈源于组间相对优势估计（GRAE）中固有的隐式优势对称性。该对称性引发两个关键局限：（i）在组间层面，正确与错误轨迹间严格的权重对称性会使未采样动作的logits保持不变，从而阻碍对新颖正确解的探索；（ii）在样本层面，算法隐式优先处理中等难度样本，未能适应难度聚焦的非平稳需求。通过受控实验，我们揭示这种对称特性并非最优，并得出两个关键发现：（i）非对称抑制正确轨迹的优势能促进必要探索；（ii）通过类课程学习策略——先侧重简单样本再逐步转向复杂样本——可实现学习效率最大化。基于这些发现，我们提出非对称GRAE（A-GRAE），动态调节探索激励与样本难度聚焦。在七个基准测试上的实验表明，A-GRAE能持续提升GRPO及其变体在LLM和多模态大语言模型上的性能。

智由路由：通过潜在空间与离散空间间的思维路由实现高效推理
ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

Feb 12

ByXin Xu, Tong Yu, Xiang Chen, Haoliang Wang, Julian McAuley, Saayan Mitra

近期研究通过用潜在空间中的连续表征替代显式推理轨迹来探索潜在推理，以提升推理效率，但其效果因场景而异。对潜在推理下模型置信度动态的分析表明，以错误答案结尾的思维轨迹比正确答案结尾的轨迹包含更少的低置信度步骤。同时我们发现，由多个低置信度备选思维聚合而成的软嵌入可能引入并传播噪声，导致对不可靠推理轨迹的过度自信。基于这些观察，我们提出ThinkRouter——一种推理时感知置信度的路由机制，通过规避高置信度与噪声来实现高效推理。该机制在模型置信度较低时将思维路由至离散词元空间，反之则路由至潜在空间。在多个大型推理模型上进行的STEM推理与代码生成基准测试表明，ThinkRouter在准确率上显著优于显式思维链、随机路由及潜在推理基线，Pass@1指标平均提升19.70分，同时生成长度最高缩短15.55%。进一步综合分析显示，ThinkRouter能校准显式思维链与潜在推理产生的误差，并通过全局降低模型置信度加速思维终止符的生成。

T3D：基于轨迹自蒸馏与直接判别优化的少步扩散语言模型
T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

Feb 12

ByTunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas

扩散大语言模型（DLLMs）具备通过并行解码多个标记实现快速文本生成的潜力。然而在实际应用中，其推理效率受限于大量细化步骤的需求，而过度减少步骤数量会导致生成质量显著下降。为缓解此问题，我们提出一种轨迹自蒸馏框架，通过蒸馏模型自身的生成轨迹来改进少步解码。我们引入直接判别优化（DDO）这一反向KL目标函数，该函数支持模式聚焦式蒸馏，促使学生模型聚焦于教师模型的高概率模式。在多项基准测试中，我们的方法在严格步数预算下持续优于强少步基线及标准训练结果。尽管全步解码仍具优势，但我们显著缩小了性能差距，为实用型少步DLLMs奠定了坚实基础。源代码已发布于https://github.com/Tyrion58/T3D。

单负胶子树图振幅非零
Single-minus gluon tree amplitudes are nonzero

Feb 12

ByAlfredo Guevara, Alexandru Lupsasca, David Skinner, Andrew Strominger, Kevin Weil

本文重新审视了单负号树阶n胶子散射振幅。这类振幅通常被假定为零，但我们证明在克莱因空间的特定"半共线"构型或复化动量条件下它们并不消失。我们推导出了单个负螺旋度胶子衰变为n-1个正螺旋度胶子的分段常数闭式表达式，该表达式是动量的函数。该公式非平凡地满足包括温伯格软定理在内的多重自洽条件。

MemFly：基于信息瓶颈的即时内存优化
MemFly: On-the-Fly Memory Optimization via Information Bottleneck

Feb 8

ByZhenyuan Zhang, Xianzhang Jia, Zhiqin Yang, Zhenbo Song, Wei Xue, Sirui Han, Yike Guo

长期记忆使大语言模型智能体能够通过历史交互处理复杂任务。然而，现有框架在高效压缩冗余信息与保持下游任务精确检索之间面临根本性矛盾。为弥补这一鸿沟，我们提出基于信息瓶颈原理的MemFly框架，实现大语言模型的实时记忆演化。该方法通过无梯度优化器最小化压缩熵的同时最大化关联熵，构建分层记忆结构以实现高效存储。为充分发挥MemFly效能，我们开发了混合检索机制，无缝集成语义、符号和拓扑检索路径，并引入迭代优化以处理复杂多跳查询。综合实验表明，MemFly在记忆连贯性、响应保真度与准确性方面显著优于现有最优基线模型。

MiniCPM-SALA：融合稀疏与线性注意力机制的高效长上下文建模
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Feb 12

ByMiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

大型语言模型（LLM）向超长上下文应用演进的过程中，面临Transformer架构高昂计算与内存成本带来的挑战。现有稀疏注意力和线性注意力机制虽试图缓解该问题，但通常需要在内存效率与模型性能之间进行权衡。本文提出MiniCPM-SALA——一种90亿参数的混合架构，融合了稀疏注意力（InfLLM-V2）的高保真长上下文建模能力与线性注意力（Lightning Attention）的全局效率。通过采用层级选择算法以1:3比例集成这两种机制，并运用混合位置编码（HyPE），该模型在长上下文任务中兼顾效率与性能。此外，我们引入一种低成本持续训练框架，可将基于Transformer的预训练模型转化为混合模型，相比从头训练降低约75%的训练成本。大量实验表明，MiniCPM-SALA在保持与全注意力模型相当通用能力的同时，显著提升了效率。在单张NVIDIA A6000D GPU上，该模型在256K令牌序列长度下推理速度可达全注意力模型的3.5倍，并支持最高100万令牌的上下文长度，而传统80亿参数全注意力模型因内存限制无法达到该规模。

开放世界课程学习中的编程梦想
Dreaming in Code for Curriculum Learning in Open-Ended Worlds

Feb 9

ByKonstantinos Mitsides, Maxence Faldor, Antoine Cully

开放式学习将智能视为在与不断扩展的环境空间持续互动中涌现的结果。尽管近期研究利用基础模型以编程方式生成多样化环境，但这些方法往往侧重于发现孤立行为而非协调可持续的进阶过程。在复杂的开放世界中，挑战组合空间的庞大规模使得智能体难以发现始终保持可学习性的经验序列。为此，我们提出代码造梦（DiCode）框架，通过基础模型合成可执行环境代码，为能力提升搭建渐进式学习阶梯。在DiCode中，"造梦"表现为具象化世界代码层面的变体。我们在Craftax——一个具有丰富机制和长周期进阶特性的挑战性开放基准测试中实现了DiCode。实验表明，DiCode使智能体能够掌握长周期技能，较最强基线平均回报提升16%，并在现有方法均告失败的后期战斗任务中实现非零成功率。我们的研究结果证明，代码级环境设计为课程控制提供了实用机制，能够构建衔接开放世界能力鸿沟的中间环境。项目页面与源代码详见：https://konstantinosmitsides.github.io/dreaming-in-code 与 https://github.com/konstantinosmitsides/dreaming-in-code。

基于分布式GPU的大规模语言模型预训练：一种内存高效的去中心化范式
Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Feb 12

ByJinrui Zhang, Chaodong Xiao, Aoqi Wu, Xindong Zhang, Lei Zhang

大规模语言模型（LLM）的预训练通常需要配备数千块高内存GPU（如H100/A100）的集中式算力集群。近期出现的去中心化训练方法通过采用联邦优化降低了通信开销，但仍需在每个节点上训练完整模型，受限于GPU内存瓶颈。本文提出SPES（稀疏专家同步）——一种面向专家混合模型（MoE）LLM预训练的内存高效去中心化框架。SPES在每个节点上仅训练部分专家，显著降低内存占用。各节点更新本地专家参数并定期与其他节点同步，在避免全参数传输的同时实现高效知识共享。为加速收敛，我们引入专家融合预热策略：在训练初期通过专家间知识交换快速建立基础能力。基于SPES框架，我们使用16张独立48GB GPU通过互联网连接成功训练了20亿参数MoE LLM，其性能在同等计算预算下可与集中式训练的LLM相媲美。我们进一步验证了该框架的可扩展性：从头训练的70亿参数模型以及从稠密检查点升级的90亿参数模型，均达到了现有集中式基线的性能水平。代码已开源：https://github.com/zjr2000/SPES。

MolmoSpaces：面向机器人导航与操作的大规模开放生态系统
MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

Feb 11

ByYejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna

大规模部署机器人需要应对日常场景中的长尾问题。现实环境中场景布局、物体几何形态和任务要求的无限变化极为复杂，而现有机器人基准测试对此类情况覆盖不足。衡量这种泛化能力需要规模和多样性均超越实体评估极限的基础设施。我们推出MolmoSpaces——一个完全开放的生态系统，支持机器人策略的大规模基准测试。该系统包含23万多个多样化室内环境，涵盖手工打造的家庭场景到程序化生成的多房间住宅，配置13万个带丰富标注的物体资产，其中包含4.8万个可操作物体及4200万个稳定抓取位。关键突破在于这些环境与模拟器无关，支持MuJoCo、Isaac和ManiSkill等主流平台。该生态系统覆盖具身智能全任务谱系：静态与移动操作、导航，以及需要在整个室内环境中协调感知、规划与交互的多房间长程任务。我们还设计了包含8项任务的MolmoSpaces-Bench基准测试套件，机器人可在多样化场景中与标注完善的物体进行交互。实验表明：该基准测试具备强模拟到现实关联性（R=0.96，ho=0.98）；验证了新式零样本策略在基准测试中优于早期版本；揭示了策略对指令措辞、关节初始位姿及摄像头遮挡的关键敏感性。通过MolmoSpaces及其开源资产与工具链，我们为机器人学习研究提供了可扩展数据生成、策略训练和基准创建的基础设施。

ExStrucTiny：面向文档图像中模式可变结构化信息提取的基准数据集
ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Feb 12

ByMathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso

企业文档（如表格和报告）中嵌入了对数据归档、自动化工作流和分析等下游应用至关重要的信息。尽管通用视觉语言模型在现有文档理解基准测试中表现良好，但其在不同文档类型和灵活模式间进行整体化、细粒度结构化信息抽取的能力尚未得到充分研究。现有的关键实体抽取、关系抽取和视觉问答数据集受限于狭窄的实体本体、简单查询或单一文档类型，往往忽略了可适配结构化抽取的需求。针对这些不足，我们推出了ExStrucTiny——一个面向文档图像结构化信息抽取的新基准数据集，它统一了关键实体抽取、关系抽取和视觉问答的多维特性。通过结合人工标注与合成样本并经过人工验证的新型构建流程，该数据集覆盖了更丰富的文档类型和抽取场景。我们在此基准上对开放和封闭式视觉语言模型进行了测试，揭示了模式适配、查询欠规范及答案定位等挑战。本研究有望为提升通用文档结构化信息抽取模型性能奠定基础。

可验证推理的多模态事实级归因
Multimodal Fact-Level Attribution for Verifiable Reasoning

Feb 12

ByDavid Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal

多模态大语言模型（MLLMs）正日益应用于涉及多步推理和长文本生成的实际任务中，其可靠性要求模型输出需基于异构输入源并验证每个事实主张。然而，现有的多模态基础基准和评估方法聚焦于简化的、基于观察的场景或有限模态，未能评估复杂多模态推理中的归因能力。我们提出MuRGAt（基于归因的多模态推理基准），该基准用于评估需要超越直接观察的推理场景中事实级多模态归因能力。在输入涵盖视频、音频等多模态内容时，MuRGAt要求模型生成带有显式推理过程和精确引证的答案，每个引证需同时注明模态类型和时间片段。为实现可靠评估，我们开发了与人类判断高度相关的自动评估框架。通过人工与自动化评分对比发现，即使是强大的MLLMs也常在正确推理的同时产生虚假引证。此外，我们观察到关键权衡：增加推理深度或强制结构化基础往往会降低准确性，这揭示了内部推理与可验证归因之间的显著差距。

Sci-CoE：基于几何共识与稀疏监督协同演进的科学推理大模型
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

Feb 12

ByXiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang

大型语言模型（LLMs）已展现出卓越的推理能力，协同演化范式在代码和数学等领域取得了显著成效。然而在科学推理任务中，由于解决方案评估的不可靠性及验证策略的单一性，这些模型仍显脆弱。本研究提出Sci-CoE——一个两阶段科学协同演化框架，通过从稀疏监督到无监督学习的过渡，使模型能够以求解器和验证器的双重身份实现自我演化。第一阶段，模型利用少量标注数据为验证器建立基础的正确性判断锚点；第二阶段，我们引入同时考量共识度、可靠性与多样性的几何奖励机制，驱动模型在无标注数据上进行大规模自迭代。在多个通用科学基准测试上的实验表明，Sci-CoE能有效增强复杂推理能力，并展现出强大的可扩展性，为构建更鲁棒且多元的评估体系提供了新路径。代码已开源：https://github.com/InternScience/Sci-CoE。

P-GenRM：基于测试阶段用户定标的个性化生成奖励模型
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

Feb 12

ByPinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li

大语言模型的个性化对齐旨在通过强化学习使模型输出适配用户偏好，其核心挑战在于开放场景下如何获取精准的用户特定奖励信号。现有个性化奖励模型存在两大局限：（1）将多样化的场景偏好过度简化为少量固定评估准则；（2）对反馈数据有限的新用户泛化能力不足。为此，我们提出首个支持测试时用户自适应缩放的个人化生成式奖励模型P-GenRM。该模型将偏好信号转化为结构化评估链，动态生成跨场景的自适应用户画像与评分体系；通过聚类构建用户原型，并设计双粒度缩放机制：在个体层面自适应缩放聚合用户评分方案，在原型层面融合相似用户偏好。该设计有效缓解了偏好推断噪声，通过原型迁移提升对新用户的泛化能力。实验表明，P-GenRM在主流个性化奖励模型基准上实现平均2.31%的性能提升，在分布外数据集上展现强泛化性。测试时用户缩放机制额外带来3%的增益，证明了该方法在测试可扩展性下实现更强个性化对齐的有效性。

隐喻之星：基于端到端视觉强化学习的图像隐喻理解与推理
MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Feb 11

ByChenhao Zhang, Yazhe Niu, Hongsheng Li

图像隐喻理解仍是当前人工智能系统面临的关键挑战。尽管多模态大语言模型在基础视觉问答任务中表现出色，但在理解视觉内容中蕴含的微妙文化、情感及语境含义时仍存在明显不足。这一困境源于该任务对复杂多跳推理、文化背景及心理理论能力的高要求，而现有模型尚不具备这些能力。为此，我们提出首个面向图像含义推理任务的端到端视觉强化学习框架MetaphorStar，该框架包含三大核心组件：细粒度数据集TFQ-Data、视觉强化学习方法TFQ-GRPO以及结构化评测基准TFQ-Bench。基于TFQ-Data采用TFQ-GRPO训练的全开源MetaphorStar系列模型，在图像含义推理基准测试中平均性能提升达82.6%。与20余个主流多模态大模型相比，MetaphorStar-32B在选择题与开放题上达到最优水平，在判断题上显著超越顶级闭源模型Gemini-3.0-pro。关键的是，实验表明学习图像含义推理任务能有效提升模型的通用理解能力，特别是复杂视觉推理能力。我们进一步系统分析了模型参数规模、训练数据量、不同模型架构与训练策略的影响，验证了方法的广泛适用性。所有模型权重、数据集及方法代码均已开源：https://metaphorstar.github.io。

预算约束下的智能大语言模型：基于意图规划的昂贵工具使用策略
Budget-Constrained Agentic Large Language Models: Intention-Based Planning for Costly Tool Use

Feb 12

ByHanbing Liu, Chunhao Tian, Nan An, Ziyuan Wang, Pinyan Lu, Changyuan Yu, Qi Qi

我们研究预算受限的工具增强智能体，该场景要求大语言模型在严格货币预算下通过调用外部工具解决多步骤任务。我们将此设定形式化为上下文空间中的序列决策问题，其中工具执行具有价格随机性，由于状态-动作空间庞大、结果方差高且探索成本惊人，直接规划变得难以处理。针对这些挑战，我们提出INTENT——一种推理时规划框架，该框架利用意图感知的分层世界模型来预测未来工具使用情况与风险校准成本，并在线指导决策。在成本增强型StableToolBench测试中，INTENT在严格保证硬预算可行性的同时，显著提升了任务成功率，且在工具价格波动、预算变化等动态市场条件下仍保持稳健性。

ScalSelect：面向高效视觉指令调优的可扩展免训练多模态数据选择方法
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

Feb 12

ByChangti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen

大规模视觉指令调优（VIT）已成为提升视觉语言模型（VLM）在多模态任务中性能的关键范式。然而，由于数据冗余，在大规模数据集上进行训练计算成本高昂且效率低下，这推动了对多模态数据选择以提升训练效率的需求。现有的VIT数据选择方法要么需要昂贵的训练或梯度计算，而免训练方案往往依赖代理模型/数据集、与指令无关的表征或具有二次方复杂度的成对相似性计算，限制了可扩展性和表征保真度。本文提出ScalSelect——一种可扩展的免训练多模态数据选择方法，其时间复杂度与样本数量呈线性关系，且无需外部模型或辅助数据集。ScalSelect首先通过提取目标VLM中指令令牌最关注的视觉特征来构建样本表征，从而捕获指令相关信息；随后识别其表征最能逼近全量数据集表征主导子空间的样本，实现无需成对比较的可扩展重要性评分。在多个VLM、数据集和选择预算下的实验表明，ScalSelect仅使用16%的数据即可达到全量数据训练97.5%以上的性能，在某些设定下甚至优于全量数据训练。代码已开源于https://github.com/ChangtiWu/ScalSelect。

基于推理结构收敛的RLVR训练数据检测方法
Detecting RLVR Training Data via Structural Convergence of Reasoning

Feb 12

ByHongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang

可验证奖励的强化学习（RLVR）是训练现代推理模型的核心技术，但由于训练数据未公开，引发了基准测试污染的担忧。与基于词元级概率优化模型的预训练方法不同，RLVR通过自我生成的推理轨迹获得的奖励反馈进行模型微调，这使得传统的基于似然度的检测方法效力减弱。我们发现RLVR会引发独特的行为特征：在RLVR训练中接触过的提示会导致模型生成更刻板且相似的文本，而未见过的新提示则保持更高的多样性。我们提出Min-kNN距离检测法，这种简单的黑盒检测器通过采样单个提示的多个补全结果，并计算k个最小近邻编辑距离的平均值来量化这种坍缩现象。该方法无需参考原始模型或词元概率。在多个经过RLVR训练的推理模型上的实验表明，Min-kNN距离能可靠区分RL训练所见与未见样本，其性能优于现有的成员推理与RL污染检测基线方法。

ABot-N0：面向通用具身导航的VLA基础模型技术报告
ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

Feb 12

ByZedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu

长期以来，具身导航技术因任务特定型架构而处于碎片化状态。我们推出ABot-N0——一个实现视觉-语言-动作大统一的基座模型，在五大核心任务（点目标导航、物标导航、指令跟随、兴趣点导航及人员跟随）中实现"大一统"。该模型采用分层式"大脑-行动"架构，将基于大语言模型的认知大脑（负责语义推理）与基于流匹配的行动专家（生成精准连续轨迹）相结合。为支撑大规模学习，我们构建了ABot-N0数据引擎，从7,802个高保真3D场景（总面积10.7平方公里）中提炼出1,690万条专家轨迹与500万推理样本。ABot-N0在7项基准测试中刷新性能纪录，显著超越专用模型。此外，我们的智能导航系统融合规划器与分层拓扑记忆机制，可在动态现实环境中执行鲁棒的长周期任务。

Stemphonic：一体化灵活多音轨音乐生成
Stemphonic: All-at-once Flexible Multi-stem Music Generation

Feb 10

ByShih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan

音乐音轨生成技术能够产生音乐同步且分离的乐器音频片段，与传统文本到音乐模型相比，该技术具有更强的用户控制性和与音乐人工作流程的契合度。然而现有音轨生成方法要么依赖固定架构并行输出预设音轨组合，要么每次仅生成单一音轨，虽在音轨组合方面具有灵活性，但推理速度缓慢。我们提出Stemphonic框架，该基于扩散/流模型的方案突破了这一局限，可在单次推理过程中生成可变数量的同步音轨。训练阶段，我们将每个音轨作为批次元素处理，将同步音轨编组后对每组应用共享噪声潜变量。推理时，通过共享初始噪声潜变量与音轨专属文本输入，实现单次推理生成同步多音轨输出。我们进一步扩展该方法，支持单次条件化多音轨生成及音轨活动度控制，使用户能迭代生成并精细编排混音的时间分层结构。在多个开源音轨评估集上的测试表明，Stemphonic在将完整混音生成速度提升25%至50%的同时，能产生更高质量的音频输出。演示地址：https://stemphonic-demo.vercel.app。

神经加法专家：面向可控模型可加性的上下文门控专家系统
Neural Additive Experts: Context-Gated Experts for Controllable Model Additivity

Feb 11

ByGuangzhi Xiong, Sanchit Sinha, Aidong Zhang

可解释性与准确性之间的权衡仍是机器学习的核心挑战。标准广义可加模型（GAMs）虽能提供清晰的特征归因，但其严格的加性结构常会限制预测性能。引入特征交互可提升准确性，却可能模糊个体特征的贡献度。为解决这一问题，我们提出神经加性专家（NAEs）框架，该创新方案在可解释性与准确性之间实现了有机平衡。NAEs采用专家混合框架，为每个特征学习多个专用网络，同时通过动态门控机制整合跨特征信息，从而突破刚性加性约束。此外，我们提出定向正则化技术以降低专家预测间的方差，促使模型从纯加性结构平滑过渡至能捕捉复杂特征交互的状态，同时保持特征归因的清晰度。通过理论分析和合成数据实验，我们验证了该模型的灵活性；在真实数据集上的广泛评估表明，NAEs在预测准确性与透明化特征级解释之间达到了最优平衡。代码详见https://github.com/Teddy-XiongGZ/NAE。