HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

41 papers found

魔鬼藏於蛻變之書背後：自我演化AI社會中永恆消逝的人本安全
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

Feb 10

ByChenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu

197

基於大型語言模型建構的多代理系統的興起，為可擴展的集體智慧與自我演化提供了一個前景廣闊的範式。理想情況下，這類系統應能在完全閉環中實現持續自我改進，同時保持穩健的安全對齊——我們將這種組合稱為「自我演化三重困境」。然而，我們從理論與實證兩方面證明，要同時滿足持續自我演化、完全隔離性與安全不變性的代理社會是不可能的。藉助資訊理論框架，我們將安全性形式化為與人類價值分佈的偏離程度，並從理論上論證隔離式自我演化會誘發統計盲點，導致系統安全對齊出現不可逆的退化。來自開放式代理社群（Moltbook）及兩個封閉式自演化系統的實證與質性結果，均呈現出與我們理論預測相符的必然安全侵蝕現象。我們進一步提出多個解決方向以緩解此安全隱患。本研究確立了自演化人工智慧社會的根本限制，將討論焦點從症狀導向的安全修補轉向對內在動態風險的原則性理解，並凸顯外部監管或新型安全維護機制的必要性。

組合式強化學習：為大型語言模型的強化學習構建可驗證提示
Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Feb 12

ByXin Xu, Clive Bai, Kai Yang, Tianhao Chen, Yangkun Chen, Weijie Liu, Hao Chen, Yang Wang, Saiyong Yang, Can Yang

大規模可驗證提示是強化學習與可驗證獎勵（RLVR）成功的基礎，但其中包含大量無信息量的樣本，且進一步擴充成本高昂。近期研究聚焦於更有效利用有限訓練數據，優先處理通過率為0的困難提示。然而隨著訓練推進，通過率為1的簡單提示也日益普遍，反而縮減了有效數據規模。為緩解此問題，我們提出Composition-RL——一種針對通過率為1提示的簡潔有效方法，能更好地利用有限的可驗證提示。具體而言，該方法自動將多個問題組合為新的可驗證題目，並將這些組合提示用於強化學習訓練。在4B至30B不同模型規模上的廣泛實驗表明，Composition-RL相較於原始數據集訓練的強化學習能持續提升推理能力。若採用逐步增加組合深度的課程學習變體，性能可進一步提升。此外，通過組合來自不同領域的提示，Composition-RL能實現更有效的跨領域強化學習。相關代碼、數據集與模型已開源於：https://github.com/XinXU-USTC/Composition-RL。

DeepGen 1.0：輕量級統一多模態模型，推動圖像生成與編輯技術發展
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Feb 12

ByDianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang

当前用于图像生成与编辑的统一多模态模型通常依赖海量参数规模（例如超过100亿参数），导致训练成本与部署资源难以承受。本研究推出DeepGen 1.0——一个仅需50亿参数的轻量化统一模型，其综合能力可媲美甚至超越规模更大的同类模型。为克服紧凑模型在语义理解与细粒度控制方面的局限，我们提出堆叠通道桥接技术（SCB），该深度对齐框架通过从视觉语言模型的多层网络中提取层次化特征，并与可学习的"思维标记"进行融合，为生成主干网络提供结构化、富含推理逻辑的引导。我们进一步设计了以数据为核心的渐进式三阶段训练策略：（1）基于大规模图文对与编辑三元组的对齐预训练，实现视觉语言模型与扩散Transformer的表征同步；（2）在高质量混合任务集（涵盖生成、编辑与推理任务）上进行联合监督微调，以培养全场景能力；（3）采用混合奖励引导策略优化的强化学习（MR-GRPO），通过融合多类奖励函数与监督信号，在保持训练稳定性、避免视觉伪影的同时，显著提升生成质量与人类偏好对齐度。尽管仅使用约5000万样本进行训练，DeepGen 1.0在多项基准测试中表现领先：在WISE基准上超越800亿参数的HunyuanImage达28%，在UniREditBench基准上超越270亿参数的Qwen-Image-Edit达37%。通过开源训练代码、模型权重及数据集，我们为统一多模态研究提供了高效、高性能的民主化替代方案。

GigaBrain-0.5M：基於世界模型強化學習的視覺語言行動模型
GigaBrain-0.5M: a VLA That Learns From World Model-Based Reinforcement Learning

Feb 12

ByGigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

直接根據當前觀測預測多步動作塊的視覺-語言-動作模型，因受限的場景理解能力和薄弱的前瞻預測能力而存在固有局限。相比之下，基於網路規模影片語料庫預訓練的影片世界模型展現出強大的時空推理能力與精準的未來預測性能，使其成為增強VLA學習的自然基礎。為此，我們提出GigaBrain-0.5M*——一款通過基於世界模型的強化學習訓練的VLA模型。該模型基於GigaBrain-0.5構建（其預訓練數據包含逾10,000小時機器人操作數據，其中間版本目前位居國際RoboChallenge基準榜首），並進一步通過RAMP（基於世界模型條件策略的強化學習）整合世界模型強化學習機制，實現強健的跨任務適應能力。實證結果表明，RAMP相較RECAP基線取得顯著性能提升，在衣物摺疊、箱體打包與咖啡製作等高難度任務中實現約30%的改進。關鍵在於，GigaBrain-0.5M*展現出可靠的長時程執行能力，經由我們專案頁面（https://gigabrain05m.github.io）展示的實際部署影片驗證，可持續完成複雜操作任務且零失誤。

超越教師的學習：基於獎勵推廣的廣義在線蒸餾方法（注：標題採用學術論文常見的意譯手法，將"Generalized On-Policy Distillation with Reward Extrapolation"的核心概念轉化為符合中文論文標題習慣的表達。其中"On-Policy Distillation"譯為"在線蒸餾"是強化學習領域的標準譯法，"Reward Extrapolation"譯為"獎勵推廣"既保留原意又符合中文術語簡潔性要求。）
Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Feb 12

ByWenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin

同策略蒸餿（OPD）透過讓學生模型在自身生成的軌跡上對齊教師模型的對數分佈，已在提升學生模型效能方面展現出顯著的實證優勢，其表現往往優於異策略蒸餿與強化學習（RL）範式。本研究首先從理論層面證明：OPD實為稠密KL約束強化學習的特例，其中獎勵函數與KL正則化的權重恆定相等，且參考模型可為任意模型。據此，我們提出廣義同策略蒸餿（G-OPD）框架，透過引入靈活的參考模型與控制獎勵項相對KL正則化權重的獎勵縮放因子，擴展了標準OPD的目標函數。在數學推理與程式碼生成任務的全面實驗中，我們獲得兩項新發現：（1）將獎勵縮放因子設定大於1（即獎勵外推法，稱之為ExOPD），能在多種師生模型規模配對下持續優於標準OPD。特別是在將經領域特定RL訓練的同一學生模型所獲得的各領域專家知識融合回原始學生模型時，ExOPD能使學生模型突破教師模型的效能邊界，表現超越領域專家教師。（2）基於ExOPD，我們進一步發現：在強弱模型蒸餿情境（即從較大教師模型蒸餿較小學生模型）中，選擇教師模型在RL訓練前的基礎模型作為參考模型進行獎勵校正，可產生更精確的獎勵信號並進一步提升蒸餿效能。但此方法需取得教師模型的預訓練版本且會增加計算負擔。我們的研究期望能為未來OPD相關研究提供新的思路。

MOSS-Audio-Tokenizer：為未來音頻基礎模型擴展音頻標記器
MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Feb 11

ByYitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu

離散音訊標記器是賦予大型語言模型原生音訊處理與生成能力的關鍵基礎。儘管近期有所進展，現有方法往往依賴預訓練編碼器、語義蒸餾或異構的卷積神經網路架構。這些設計引入了固定的歸納偏置，限制了重建保真度並阻礙了有效擴展。本文主張離散音訊標記化應採用同構且可擴展的架構進行完全端到端學習。為此，我們首先提出CAT（基於Transformer的因果音訊標記器），這是一種純Transformer架構，能從頭開始聯合優化編碼器、量化器和解碼器以實現高保真重建。基於CAT架構，我們進一步開發了MOSS-Audio-Tokenizer——一個擁有16億參數的大規模音訊標記器，並在300萬小時的多元通用音訊數據上進行預訓練。我們證明這種基於同構因果Transformer模塊的簡潔端到端方法具備優雅的擴展性，能在各類音訊領域實現高保真重建。在語音、環境聲和音樂場景中，MOSS-Audio-Tokenizer在廣泛碼率範圍內持續超越現有編解碼器，同時展現出隨規模擴大的可預測性能提升。值得注意的是，利用本模型的離散標記，我們開發出首個純自回歸文本轉語音模型，其性能超越先前非自回歸與級聯系統。此外，MOSS-Audio-Tokenizer無需輔助編碼器即可實現競爭性的自動語音識別性能。我們的研究成果將CAT架構確立為新一代原生音訊基礎模型的統一可擴展接口。

NarraScore：通过分层情感控制连接视觉叙事与音乐动态
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Feb 9

ByYufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu

为长视频合成连贯配乐仍是一项艰巨挑战，目前受限于三大关键障碍：计算可扩展性、时序连贯性，以及最关键的——对叙事逻辑动态演变的普遍语义盲区。为突破这些限制，我们提出NarraScore框架，其核心思想在于将情感视为叙事逻辑的高密度压缩表达。我们创新性地利用冻结式视觉语言模型作为连续情感感知器，将高维视觉流蒸馏为稠密的叙事感知效价-唤醒轨迹。在机制设计上，NarraScore采用双分支注入策略协调全局结构与局部动态：全局语义锚点确保风格稳定性，而精准的令牌级情感适配器通过直接元素残差注入调控局部张力。这种极简设计绕过了稠密注意力与架构复制的瓶颈，有效缓解了数据稀缺导致的过拟合风险。实验表明，NarraScore以可忽略的计算开销实现了最先进的连贯性与叙事对齐度，为长视频配乐生成建立了全自动范式。

LawThinker：動態環境下的深度研究型法律代理
LawThinker: A Deep Research Legal Agent in Dynamic Environments

Feb 12

ByXinyu Yang, Chenlong Deng, Tongyu Wen, Binyu Xie, Zhicheng Dou

法律推理不僅要求結果正確，更需要符合程序規範的推理過程。然而現有方法缺乏對中間推理步驟的驗證機制，導致如法條引用不當等錯誤能在推理鏈中未被察覺地傳播。為解決此問題，我們提出LawThinker——一種採用「探索-驗證-記憶」策略的自主法律研究智能體，專為動態司法環境設計。其核心思想是將驗證作為每次知識探索後的原子化操作：DeepVerifier模組從知識準確性、事實與法律關聯性、程序合規性三個維度審查每個檢索結果，並通過記憶模組實現跨輪次知識複用以應對長週期任務。在動態基準J1-EVAL上的實驗表明，LawThinker相比直接推理方法提升24%，較基於工作流的方法提升11%，且在過程導向指標上表現尤為突出。在三個靜態基準上的進一步驗證證實了其泛化能力。代碼已開源於https://github.com/yxy-919/LawThinker-agent。

思維草稿化：透過邏輯重建實現光學解壓縮
Thinking with Drafting: Optical Decompression via Logical Reconstruction

Feb 12

ByJingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan

現有多模態大型語言模型已實現高保真度的視覺感知與探索性視覺生成。然而在複雜推理任務中仍存在精確度悖論：光學感知系統能轉錄符號卻無法捕捉邏輯拓撲結構，而基於像素的生成模型會產生缺乏數學精確度的視覺偽影。為彌合此鴻溝，我們提出將視覺輸入的推理重新概念化為光學解壓縮——從壓縮視覺標記重建潛在邏輯結構的過程。以「解析即推理」為指導公理，我們引入「草稿式思維」框架，採用極簡領域特定語言作為基礎中間表徵。有別於直接幻覺化生成答案的標準方法，該框架強制模型將其心智模型草擬為可執行程式碼，生成確定性視覺證明以進行自我驗證。為驗證此方法，我們提出視覺代數基準測試集VisAlg。實驗表明，草稿式思維可作為優越的認知支架。本研究建立了一個閉環系統，使視覺生成不再作為創造性輸出，而是充當邏輯驗證器，為視覺推理提供可泛化的路徑。

思之弥久，探之愈深：基于长度激励强化学习的上下文探索方法
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Feb 12

ByFuting Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin

要实现有效的测试时扩展，模型需具备情境探索能力——即在单一连续语境中生成、验证并优化多重推理假设的内在能力。基于状态覆盖理论的分析发现，实现该能力存在关键瓶颈：虽然更广的状态覆盖需要更长的推理轨迹，但在自回归生成过程中采样此类序列的概率会呈指数级衰减，这一现象被我们称为"浅层探索陷阱"。为突破此局限，我们提出长度激励探索法。该方案通过长度奖励与冗余惩罚相结合的简单而有效的机制，显式激励模型进行更广泛探索，从而以双阶段方式实现状态覆盖最大化。跨模型（Qwen3、Llama）的综合实验表明，本方法能有效促进情境探索能力。实验结果显示，该方法在领域内任务上平均提升4.4%，在领域外基准测试中获得2.7%的性能增益。

RISE：基於組合世界模型的機器人策略自我優化系統
RISE: Self-Improving Robot Policy with Compositional World Model

Feb 11

ByJiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li

尽管模型容量与数据获取能力持续提升，视觉-语言-动作模型在接触密集型动态操作任务中仍显脆弱——细微的执行偏差会累积导致任务失败。虽然强化学习为提升鲁棒性提供了理论路径，但物理世界中的同策略强化学习受限于安全风险、硬件成本与环境重置难题。为弥合这一鸿沟，我们提出RISE框架：基于想象机制的机器人强化学习可扩展方案。其核心是组合式世界模型，该模型具备双重功能：（i）通过可控动力学模型预测多视角未来状态；（ii）利用进程价值模型评估想象结果，为策略改进生成信息量丰富的优势函数。这种组合设计使得状态与价值评估能采用最适合且相互独立的架构与目标函数。这些组件被整合至闭环自优化流程中，可持续生成虚拟推演、估算优势函数，并在虚拟空间更新策略，无需耗费成本的物理交互。在三大具挑战性的现实任务中，RISE相较现有技术实现显著提升：动态积木分拣任务绝对性能提高35%以上，背包整理任务提升45%，箱体关闭任务提升35%。

驚奇之筆：向量素描中的漸進語義幻覺
Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching

Feb 12

ByHuai-Hsun Cheng, Siang-Ling Zhang, Yu-Lun Liu

傳統視覺錯覺主要依賴多視角一致性等空間操控技術。本研究提出「漸進語義錯覺」——一種新穎的向量素描任務，通過逐筆添加筆劃實現單幅素描的語義劇變。我們開發了Stroke of Surprise生成框架，通過優化向量筆劃使同一素描在不同繪製階段呈現截然不同的語義解讀。核心挑戰在於「雙重約束」：初始前綴筆劃既要構成連貫物體（如鴨子），又需作為添加增量筆劃後第二概念（如綿羊）的結構基礎。為此，我們提出由雙分支分數蒸餾採樣機制驅動的序列感知聯合優化框架。有別於凍結初始狀態的序列方法，我們的技術能動態調整前綴筆劃，探索對兩個目標均有效的「共通結構子空間」。此外，我們創新性地引入疊加損失函數來強化空間互補性，確保結構融合而非簡單遮擋。大量實驗表明，本方法在可識別性與錯覺強度上顯著超越現有基準方案，成功將視覺字謎從空間維度拓展至時間維度。項目頁面：https://stroke-of-surprise.github.io/

χ₀：基於資源感知的魯棒操作——通過馴服分佈不一致性實現
χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

Feb 9

ByChecheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan

传统上，高可靠性长周期机器人操作依赖于大规模数据和计算资源来理解复杂现实世界的动态特性。然而，我们发现实现现实世界鲁棒性的主要瓶颈不仅在于资源规模，更在于人类示范数据分布、策略学习所得的归纳偏置以及测试执行分布之间的分布偏移——这种系统性不一致会导致多阶段任务中出现误差累积。为缓解这些不一致性，我们提出χ₀框架，该资源高效型框架通过专门设计的有效模块实现生产级鲁棒性的机器人操作。我们的方法基于三大技术支柱：(i) 模型算术——一种权重空间融合策略，能高效吸收从物体外观到状态变化的多样化示范数据分布；(ii) 阶段优势值——具有阶段感知能力的优势估计器，可提供稳定、密集的进度信号，克服了先前非阶段方法的数值不稳定性；(iii) 训练-部署对齐——通过时空增强、启发式DAgger修正和时序分块平滑来弥合分布差距。χ₀使两组双臂机器人能协作完成长周期衣物操作任务，涵盖从铺平、折叠到悬挂不同衣物的全过程。我们的方法展现出高可靠性自主能力：系统能从任意初始状态连续不间断运行24小时。实验验证表明，χ₀仅用20小时数据和8块A100 GPU，其成功率就超越最先进的π₀.5近250%。我们将公开代码、数据及模型以促进社区发展。

EgoHumanoid：通过无机器人本体中心演示解锁野外移动操作能力
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Feb 10

ByModi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen

人類示範數據具有豐富的環境多樣性且能自然擴展規模，因此成為機器人遙操作的理想替代方案。儘管該範式已推動機械臂操控技術的發展，但其在更具挑戰性、數據需求更大的人形機器人移動操控領域的潛力仍待探索。我們提出EgoHumanoid框架——首個利用海量第一視角人類示範數據與有限機器人數據協同訓練視覺-語言-動作策略的系統，使人形機器人能夠在多樣化真實環境中執行移動操控任務。為彌合人類與機器人之間的具身差異（包括物理形態和視角差異），我們建立了從硬件設計到數據處理的系統化對齊流程：開發便攜式可擴展人類數據採集系統，制定實用採集協議以提升遷移性。該人形對齊流程的核心包含兩個關鍵組件：視角對齊通過消除攝像頭高度與透視差異來降低視覺域差異；動作對齊將人類運動映射至統一且運動學可行的人形機器人控制空間。大量實物實驗表明，引入無機器人參與的第一視角數據可使性能較純機器人基準提升51%，尤其在未見環境中表現突出。我們的分析進一步揭示了哪些行為可有效遷移，以及人類數據規模化應用的潛力。

dVoting：面向分布式大语言模型的快速投票机制
dVoting: Fast Voting for dLLMs

Feb 12

BySicheng Feng, Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

扩散大语言模型（dLLMs）代表了超越自回归建模的新范式，在保持竞争力性能的同时，天然支持灵活的解码过程。具体而言，dLLMs能够并行生成任意位置的词元，这赋予了它们在测试时并行扩展方面的巨大潜力——而此前自回归建模因效率低下而严重受限。本研究提出dVoting技术，这是一种无需训练即可增强推理能力的快速投票方法，仅需付出可接受的计算开销。该技术的灵感来源于以下发现：对于同一提示的多个生成样本，大部分词元预测保持稳定，而模型性能实际上由少数存在跨样本差异的关键词元决定。借助dLLMs的任意位置生成能力，dVoting通过采样执行迭代优化：首先进行一致性分析识别不确定词元，随后通过投票机制重新生成这些词元，并循环该过程直至收敛。大量实验表明，dVoting在多个基准测试中均能稳定提升性能：GSM8K数据集提升6.22%-7.66%，MATH500提升4.40%-7.20%，ARC-C提升3.16%-14.84%，MMLU提升4.83%-5.74%。代码已开源：https://github.com/fscdc/dVoting

Voxtral 实时语音系统
Voxtral Realtime

Feb 11

ByAlexander H. Liu, Andy Ehrenberg, Andy Lo, Chen-Yo Sun, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Rohin Arora, Sanchit Gandhi, Sandeep Subramanian, Soham Ghosh, Srijan Mishra, Abhinav Rastogi, Alan Jeffares, Albert Jiang, Alexandre Sablayrolles, Amélie Héliou, Andrew Bai, Angele Lenglemetz, Anmol Agarwal, Anton Eliseev, Antonia Calvi, Arjun Majumdar, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Benjamin Tibi, Clémence Lanfranchi, Connor Chen, Corentin Barreau, Corentin Sautier, Cyprien Courtot, Darius Dabert, Diego de las Casas, Elliot Chane-Sane, Enguerrand Paquin, Faruk Ahmed, Federico Baldassarre, Gabrielle Berrada, Gaëtan Ecrepont, Gauthier Guinet, Genevieve Hayes, Georgii Novikov, Giada Pistilli, Guillaume Martin, Gunjan Dhanuka, Gunshi Gupta, Han Zhou, Indraneel Mukherjee, Irene Zhang, Jaeyoung Kim, Jan Ludziejewski, Jason Rute, Joachim Studnia, John Harvill, Jonas Amar, Josselin Somerville Roberts, Julien Tauran, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Laurence Aitchison, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Manan Sharma, Margaret Jennings, Marie Pellat, Mark Prins, Mathieu Poirée, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mert Unsal, Mia Chiquier, Nathan Grinsztajn, Neha Gupta, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomène Chagniot, Pierre Stock, Piotr Miłoś, Prateek Gupta, Pravesh Agrawal, Quentin Torroba, Ram Ramrakhya, Rishi Shah, Romain Sauvestre, Roman Soletskyi, Rosalie Millner, Sagar Vaze, Samuel Humeau, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Théo Cachet, Theo Simon Sorg, Thibaut Lavril, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Edwards, Tyler Wang, Valeriia Nemychnikova, Van Phung, Vedant Nanda, Victor Jouault, Virgile Richard, Vladislav Bataev, Wassim Bouaziz, Wen-Ding Li, William Marshall, Xinghui Li, Xingran Guo, Xinyu Yang, Yannic Neuhaus, Yihan Wang, Zaccharie Ramzi, Zhenlin Xu

我们推出Voxtral Realtime——一款原生流式自动语音识别模型，在亚秒级延迟下即可达到离线转录质量。与通过分块或滑动窗口适配离线模型的方法不同，Voxtral Realtime专为流式处理进行端到端训练，实现了音频流与文本流的显式对齐。我们的架构基于延迟流建模框架，创新性地引入因果音频编码器和自适应RMS归一化技术以优化延迟调节。通过覆盖13种语言的大规模数据集进行预训练扩展，该模型在480毫秒延迟条件下，其性能可与目前部署最广泛的离线转录系统Whisper相媲美。本模型权重已依据Apache 2.0许可协议开源发布。

稀疏视频生成技术推动现实世界超视距视觉语言导航发展
Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Feb 5

ByHai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li

为何视觉语言导航必须依赖详尽繁琐的语言指令？虽然这种细节描述能简化决策过程，却与真实世界导航的根本目标背道而驰。理想情况下，智能体应具备在未知环境中仅凭简单高层意图自主导航的能力。实现这一愿景带来了严峻挑战：超视野导航（BVN）要求智能体在没有密集逐步指引的情况下定位远处不可见的目标。现有基于大语言模型的方法虽擅长遵循细致指令，却因依赖短视域监督而常出现短视行为。但若简单扩展监督视域，又会破坏大语言模型训练的稳定性。本研究首次发现视频生成模型天生具备通过长视域监督与语言指令对齐的优势，使其特别适用于BVN任务。基于这一洞见，我们首次将视频生成模型引入该领域。然而生成数十秒视频的惊人延迟使得实际部署难以实现。为此我们提出SparseVideoNav，通过生成跨越20秒视域的稀疏未来轨迹实现亚秒级路径推断，相比未优化版本获得27倍的惊人加速。大量真实场景零样本实验表明，SparseVideoNav在BVN任务上的成功率达到顶尖大语言模型基线的2.5倍，并首次在极具挑战性的夜间场景中实现此类能力。

DeepSight：一体化语言模型安全工具包
DeepSight: An All-in-One LM Safety Toolkit

Feb 12

ByBo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu

随着大模型技术的飞速发展，其安全性问题日益受到重视。当前大语言模型及多模态大语言模型的安全工作流程中，评估、诊断与对齐往往由独立工具完成。具体而言，安全评估仅能定位外部行为风险而无法探究内部根源；安全诊断则常脱离具体风险场景，停留在可解释性层面。这种方式使得安全对齐缺乏对内部机制变化的专项解释，可能导致模型通用能力下降。为系统解决这些问题，我们提出开源项目DeepSight，实践评估-诊断一体化的新范式。该项目作为低成本、可复现、高效率且高扩展性的大模型安全评估体系，由评估工具集DeepSafe与诊断工具集DeepScan构成。通过统一任务与数据协议，我们建立了两个阶段的关联，实现了安全评估从黑盒到白盒的洞察。此外，DeepSight是首个支持前沿AI风险评估、兼具安全评估与联合诊断能力的开源工具包。

大规模电商理解中的视觉语言模型适配研究
Adapting Vision-Language Models for E-commerce Understanding at Scale

Feb 12

ByMatteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi

电子商务产品理解本质上要求具备从文本、图像和结构化属性中提取信息的强大多模态理解能力。通用视觉语言模型虽能实现可泛化的多模态潜在建模，但如何在保持通用性能的前提下，使其适应电子商务数据以属性为中心、多图像和含噪声的特性，目前尚未形成系统化且广为人知的适配策略。本研究通过大规模实验表明，对通用视觉语言模型进行针对性适配可显著提升电商场景性能，同时保持广泛的多模态能力。此外，我们提出了一套创新的综合评估体系，涵盖深度产品理解、严格指令遵循及动态属性提取三大维度。

Gaia2：动态异步环境下的LLM智能体基准测试
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Feb 12

ByRomain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Gerard Moreno-Torres Bertran, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Vladislav Vorotilov, Mengjue Wang, Ian Yu, Amine Benhalloum, Grégoire Mialon, Thomas Scialom

我们推出Gaia2——一个在异步现实环境中评估大语言模型智能体的基准测试平台。与以往静态或同步评估不同，Gaia2引入了环境独立于智能体行动自主演化的场景，要求智能体在时间约束下运行，适应嘈杂动态事件，解决模糊性问题，并与其他智能体进行协作。每个场景都配有写入式验证器，支持细粒度的行动级评估，使Gaia2可直接用于基于可验证奖励的强化学习。我们对顶尖专有模型和开源模型的评估表明：GPT-5（高配版）以42%的pass@1得分位居综合榜首，但在时间敏感任务中表现不佳；Claude-4 Sonnet模型在精度与速度间权衡以控制成本；开源模型中Kimi-K2以21%的pass@1领先。这些结果揭示了推理能力、效率、鲁棒性之间的根本性权衡，并凸显了缩小"仿真到现实"差距的挑战。Gaia2基于消费级环境构建，采用开源智能体研究环境平台，设计具备易扩展性。通过将Gaia2与基础ARE框架同步开源，我们旨在为学界提供灵活的基础设施，用于开发、评估和训练下一代实用智能体系统。

PISCO：基于稀疏控制的精确视频实例插入技术
PISCO: Precise Video Instance Insertion with Sparse Control

Feb 9

ByXiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu

人工智能视频生成领域正经历关键转型：从依赖大量提示工程和"优选筛选"的通用生成，转向精细化可控生成与高保真后处理。在专业AI辅助影视制作中，实现精准定向修改至关重要。这一转变的核心在于视频实例插入技术——需将特定对象植入既有镜头的同时保持场景完整性。与传统视频编辑不同，该任务需满足多重要求：精确的时空定位、物理一致的场景交互、原始动态特性的忠实保留，且需以最小用户操作实现。本文提出PISCO，一种支持任意稀疏关键帧控制的精准视频实例插入扩散模型。用户可通过指定单帧、起止帧或任意时间戳的稀疏关键帧，自动传播物体外观、运动及交互特征。针对预训练视频扩散模型因稀疏条件引发的严重分布偏移问题，我们引入可变信息引导实现鲁棒条件控制，采用分布保持时序掩码稳定时序生成，并结合几何感知条件化实现真实场景适配。进一步构建PISCO-Bench基准数据集，包含已验证的实例标注与配对纯净背景视频，采用基于参考与无参考感知指标进行评估。实验表明，在稀疏控制条件下PISCO持续优于强基线视频修复与编辑方法，且随控制信号增加呈现清晰单调的性能提升。项目页面：xiangbogaobarry.github.io/PISCO。

揭示隐含优势对称性：为何GRPO在探索与难度适应中举步维艰
Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

Feb 5

ByZhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu

基于可验证奖励的强化学习（RLVR），特别是GRPO方法，已成为激发大语言模型推理能力的标准范式。然而，其在探索效率与难度适应性方面的效能仍存在挑战。本研究指出，这些瓶颈源于组间相对优势估计（GRAE）中固有的隐式优势对称性。该对称性引发两个关键局限：（i）在组间层面，正确与错误轨迹间严格的权重对称性会使未采样动作的logits保持不变，从而阻碍对新颖正确解的探索；（ii）在样本层面，算法隐式优先处理中等难度样本，未能适应难度聚焦的非平稳需求。通过受控实验，我们揭示这种对称特性存在次优性，并得出两个关键发现：（i）非对称抑制正确轨迹的优势能促进必要探索；（ii）通过类课程学习策略——初始优先处理简单样本再逐步转向复杂样本——可实现学习效率最大化。基于这些发现，我们提出非对称GRAE（A-GRAE），动态调节探索激励与样本难度聚焦。在七个基准测试上的实验表明，A-GRAE能持续提升GRPO及其变体在LLM与多模态大语言模型上的性能。

思維路由器：通過潛在空間與離散空間間的思維路由實現高效推理
ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

Feb 12

ByXin Xu, Tong Yu, Xiang Chen, Haoliang Wang, Julian McAuley, Saayan Mitra

近期研究探索通过用潜在空间中的连续表征替代显式推理轨迹，来提升推理效率的潜在推理方法，但其效果因具体情境而异。对潜在推理下模型置信度动态的分析表明，以错误答案告终的思维轨迹比正确答案轨迹包含更少的低置信度步骤。同时我们认为，由多个低置信度思维备选方案聚合而成的软嵌入可能引入并传播噪声，导致对不可靠推理轨迹的过度自信。基于这些发现，我们提出ThinkRouter——一种推理时置信度感知路由机制，通过规避高置信度状态和噪声来实现高效推理。该机制在模型置信度较低时将思维路由至离散标记空间，反之则路由至潜在空间。在STEM推理和编程基准测试上的大量实验表明，ThinkRouter在准确率上优于显式思维链、随机路由和潜在推理基线，Pass@1指标平均提升19.70分，同时生成长度最多减少15.55%。进一步综合分析揭示，ThinkRouter能校准显式思维链和潜在推理产生的误差，并通过全局降低模型置信度来加速思维终止标记的生成。

T3D：基于轨迹自蒸餾與直接判別性優化的少步擴散語言模型
T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

Feb 12

ByTunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas

扩散式大语言模型（DLLMs）具备通过并行解码多个标记实现快速文本生成的潜力。然而在实际应用中，其推理效率受限于大量细化步骤的需求，而过度减少步骤数会导致生成质量显著下降。为缓解此问题，我们提出了一种轨迹自蒸馏框架，通过蒸馏模型自身的生成轨迹来改进少步数解码。我们引入直接判别优化（DDO）这一反向KL目标函数，该函数支持模式寻求式蒸馏，并促使学生模型聚焦于教师模型的高概率模式。在多项基准测试中，我们的方法在严格步数预算下持续优于强少步基线及标准训练方案。尽管全步数解码仍具优势，但我们显著缩小了性能差距，为实用型少步DLLMs奠定了坚实基础。源代码已发布于https://github.com/Tyrion58/T3D。

单负胶子树图振幅非零
Single-minus gluon tree amplitudes are nonzero

Feb 12

ByAlfredo Guevara, Alexandru Lupsasca, David Skinner, Andrew Strominger, Kevin Weil

本文重新审视了单负号树阶n胶子散射振幅。尽管通常被认为为零，但我们证明在克莱因空间存在的特定"半共线"构型或复数化动量情况下，这些振幅并不消失。我们推导出了单个负螺旋度胶子衰变为n-1个正螺旋度胶子的分段常数闭式表达式，该公式是粒子动量的函数。这一表达式非平凡地满足了包括温伯格软定理在内的多重自洽条件。

MemFly：基於資訊瓶頸的即時記憶體優化技術（注：標題採用意譯方式，將"On-the-Fly"譯為「即時」以體現動態特性，"Information Bottleneck"採用學界通用譯法「資訊瓶頸」，整體保持技術論文標題的簡潔性與專業度）
MemFly: On-the-Fly Memory Optimization via Information Bottleneck

Feb 8

ByZhenyuan Zhang, Xianzhang Jia, Zhiqin Yang, Zhenbo Song, Wei Xue, Sirui Han, Yike Guo

長期記憶使大型語言模型代理能夠透過歷史互動處理複雜任務。然而現有框架面臨一個根本性困境：既要高效壓縮冗餘信息，又要為下游任務保持精確檢索能力。為解決這一矛盾，我們提出基於信息瓶頸原理的MemFly框架，實現LLM的即時記憶演化機制。該方法通過無梯度優化器最小化壓縮熵的同時最大化相關性熵，構建分層記憶結構以實現高效存儲。為充分發揮MemFly效能，我們開發了融合語義、符號與拓撲路徑的混合檢索機制，結合迭代優化策略處理複雜多跳查詢。綜合實驗表明，MemFly在記憶連貫性、響應保真度與準確性方面顯著超越現有頂尖基準模型。

MiniCPM-SALA：融合稀疏与线性注意力机制的高效长上下文建模新架构
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Feb 12

ByMiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

大型语言模型（LLM）向超长上下文应用场景的演进，正面临Transformer架构高计算与内存成本带来的挑战。尽管现有稀疏注意力与线性注意力机制试图缓解该问题，但通常需要在内存效率与模型性能之间进行权衡。本文提出MiniCPM-SALA——一种90亿参数的混合架构，融合了稀疏注意力（InfLLM-V2）的高保真长上下文建模能力与线性注意力（Lightning Attention）的全局效率。通过采用层级选择算法以1:3比例集成这两种机制，并运用混合位置编码（HyPE），该模型在长上下文任务中兼顾效率与性能。此外，我们引入一种低成本持续训练框架，可将基于Transformer的预训练模型转化为混合模型，相较从头训练降低约75%的训练成本。大量实验表明，MiniCPM-SALA在保持与全注意力模型相当通用能力的同时，提供了更高的效率。在单张NVIDIA A6000D GPU上，该模型在256K令牌序列长度下推理速度可达全注意力模型的3.5倍，并支持最高100万令牌的上下文长度（传统全注意力80亿参数模型会因内存限制而无法达到该规模）。

开放世界课程学习中的编程梦想
Dreaming in Code for Curriculum Learning in Open-Ended Worlds

Feb 9

ByKonstantinos Mitsides, Maxence Faldor, Antoine Cully

开放式学习将智能视为在与不断扩展的环境空间持续互动中涌现的产物。尽管近期研究利用基础模型以编程方式生成多样化环境，但这些方法往往侧重于发现孤立行为，而非协调可持续的进阶过程。在复杂的开放式世界中，挑战的组合空间极为庞大，导致智能体难以发现始终保持可学习性的经验序列。为此，我们提出"代码筑梦"（DiCode）框架，通过基础模型合成可执行环境代码，为能力提升搭建阶梯式学习路径。在DiCode中，"筑梦"具体表现为实现代码层面的世界变体。我们在Craftax这一具有丰富机制和长周期进阶特性的开放式基准测试中实例化了DiCode。实验表明，DiCode能使智能体掌握长周期技能，其平均回报率较最强基线提升16%，并在前期方法全部失败的终局战斗任务中实现非零成功率。研究结果证明，代码级环境设计为课程控制提供了实用机制，能够构建衔接开放式世界中能力断层的中间环境。项目页面与源代码详见：https://konstantinosmitsides.github.io/dreaming-in-code 及 https://github.com/konstantinosmitsides/dreaming-in-code。

基於分散式GPU的大規模語言模型預訓練：一種記憶體高效的去中心化範式
Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Feb 12

ByJinrui Zhang, Chaodong Xiao, Aoqi Wu, Xindong Zhang, Lei Zhang

大规模语言模型（LLM）的预训练通常需要配备数千张高显存GPU（如H100/A100）的集中式计算集群。近期出现的去中心化训练方法通过采用联邦优化降低了通信开销，但仍需在每个节点上训练完整模型，受限于GPU显存瓶颈。本研究提出稀疏专家同步（SPES），一种面向专家混合模型（MoE）LLM预训练的内存高效去中心化框架。SPES在每个节点上仅训练专家子集，显著降低内存占用。各节点更新本地专家参数并定期与其他节点同步，在避免全参数传输的同时实现高效知识共享。为加速收敛，我们引入专家融合预热策略，通过在训练初期进行专家知识交互快速建立基础能力。基于SPES框架，我们使用16张独立的48GB显存GPU通过互联网连接完成了20亿参数MoE LLM的训练，其性能在同等计算预算下可与集中式训练的LLM相媲美。我们进一步通过从头训练70亿参数模型及从稠密检查点升级90亿参数模型的实验证明了该框架的可扩展性，两种模型均达到先前集中式基线的水平。代码已开源：https://github.com/zjr2000/SPES。

MolmoSpaces：面向机器人导航与操作的大规模开放生态系统
MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

Feb 11

ByYejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna

大规模部署机器人需要应对日常场景中的长尾问题。现实环境中场景布局、物体几何形状和任务规范的无限变化极为复杂，而现有机器人基准测试对此类情况覆盖不足。衡量这种程度的泛化能力需要具备规模和多样性的基础设施，仅靠实体评估难以实现。我们推出MolmoSpaces——一个完全开放的生态系统，用于支持机器人策略的大规模基准测试。该生态系统包含23万多个多样化室内环境，涵盖手工打造的家庭场景到程序化生成的多房间住宅，配置13万个带丰富标注的物体资产，其中包含4.8万个可操作物体及4200万个稳定抓取位。关键的是，这些环境支持主流模拟器（如MuJoCo、Isaac和ManiSkill）的跨平台使用。该系统支持全系列具身智能任务：静态与移动操作、导航，以及需要在整个室内环境中协调感知、规划与交互的多房间长周期任务。我们还设计了包含8项任务的基准测试套件MolmoSpaces-Bench，让机器人与多样化场景及带丰富标注的物体进行交互。实验表明：该基准测试呈现强仿真-现实关联性（R=0.96，ho=0.98）；验证了新式零样本策略在基准测试中优于早期版本；揭示了策略对提示语表述、初始关节位姿及摄像头遮挡的关键敏感性。通过MolmoSpaces及其开源资产与工具，我们为机器人学习研究提供了可扩展数据生成、策略训练和基准创建的基础平台。

ExStrucTiny：面向文档图像中模式可变结构化信息提取的基准框架
ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Feb 12

ByMathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso

企业文档（如表格和报告）内嵌的关键信息对数据归档、自动化工作流和分析等下游应用至关重要。尽管通用视觉语言模型在现有文档理解基准测试中表现良好，但其在不同文档类型和灵活模式间进行整体化细粒度结构化信息抽取的能力尚未得到充分研究。现有的关键实体抽取、关系抽取和视觉问答数据集受限于狭窄的实体本体论、简单查询或单一文档类型，往往忽视了可适配结构化抽取的需求。为弥补这些不足，我们推出ExStrucTiny——一个面向文档图像结构化信息抽取的新基准数据集，它融合了关键实体抽取、关系抽取和视觉问答的多重特性。通过结合人工标注与合成样本并经过人工验证的新型构建流程，该数据集涵盖了更丰富的文档类型和抽取场景。我们在此基准上对开放和封闭式视觉语言模型进行分析，揭示了模式适配、查询欠规范及答案定位等挑战。本研究有望为提升通用文档结构化信息抽取模型奠定基础。

可验证推理的多模态事实级归因
Multimodal Fact-Level Attribution for Verifiable Reasoning

Feb 12

ByDavid Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal

多模态大语言模型（MLLMs）正日益应用于涉及多步推理与长文本生成的真实场景任务中，其可靠性要求模型输出必须基于异构输入源并验证每个事实主张。然而，现有的多模态归因基准与评估方法聚焦于简化的、基于观察的场景或有限模态，未能评估复杂多模态推理中的溯源能力。我们提出MuRGAt（基于归因的多模态推理基准），该基准用于评估需要超越直接观察的推理场景中事实级的多模态归因能力。在输入涵盖视频、音频等多模态内容的前提下，MuRGAt要求模型生成包含显式推理过程和精确引证的答案，其中每个引证需同时注明模态类型与时间片段。为实现可靠评估，我们开发了与人类判断高度相关的自动评估框架。通过人工与自动化评分对比发现：即使性能强劲的MLLMs也常在正确推理的同时产生虚假引证；更关键的是，我们观察到一种核心权衡——增加推理深度或强制结构化归因往往会降低准确性，这揭示了内部推理与可验证归因之间的显著差距。

Sci-CoE：基于几何共识与稀疏监督协同演化的科学推理大语言模型
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

Feb 12

ByXiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang

大型語言模型（LLMs）已展現出卓越的推理能力，而協同演化範式在代碼與數學等領域也顯示出良好效果。然而在科學推理任務中，由於解決方案評估的不可靠性及驗證策略的多樣性有限，這些模型仍表現脆弱。本研究提出Sci-CoE——一個兩階段科學協同演化框架，通過從稀疏監督到無監督學習的過渡，使模型能同時作為求解器與驗證器實現自我演化。第一階段中，模型利用少量標註數據為驗證器建立基礎的正確性判斷錨點；第二階段引入融合共識度、可靠性與多樣性的幾何獎勵機制，驅動模型在未標註數據上進行大規模自我迭代。在多個通用科學基準測試上的實驗表明，Sci-CoE能有效增強複雜推理能力，並展現出強擴展性，為構建更魯棒且多元的評估體系提供支持。代碼已開源於https://github.com/InternScience/Sci-CoE。

P-GenRM：基于测试时用户缩放的个性化生成奖励模型
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

Feb 12

ByPinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li

大型语言模型的个性化对齐旨在通过强化学习使模型响应适配用户个人偏好，其核心挑战在于开放场景中如何获取精准的用户特定奖励信号。现有个性化奖励模型存在两大局限：（1）将多样化的场景特定偏好过度简化为少量固定评估原则；（2）对反馈数据有限的新用户泛化能力不足。为此，我们提出首个支持测试时用户自适应缩放的个人化生成式奖励模型P-GenRM。该模型将偏好信号转化为结构化评估链，动态生成跨场景的自适应角色画像与评分标准，并通过用户原型聚类实现双粒度缩放机制：在个体层面自适应缩放聚合用户评分方案，在原型层面融合相似用户偏好。这种设计能有效抑制偏好推断噪声，并借助原型迁移提升对未见过用户的泛化能力。实验表明，P-GenRM在广泛使用的个性化奖励模型基准上实现平均2.31%的性能提升，并在分布外数据集展现强大泛化性。值得注意的是，测试时用户缩放机制带来额外3%的增益，证明了该模型在保持测试可扩展性的同时实现更强个性化对齐。

隐喻之星：基于端到端视觉强化学习的图像隐喻理解与推理
MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Feb 11

ByChenhao Zhang, Yazhe Niu, Hongsheng Li

圖像隱喻理解仍是當今人工智慧系統面臨的關鍵挑戰。儘管多模態大語言模型在基礎視覺問答任務中表現卓越，卻始終難以把握視覺內容中蘊含的細膩文化語境、情感暗示與情境引申義。這一困境源於該任務需要模型具備多跳推理、文化背景理解及心理理論能力等複雜維度，而現有模型尚存不足。為此，我們提出首個端到端的視覺強化學習框架MetaphorStar，專注於圖像隱喻解析任務。該框架包含三大核心組件：細粒度數據集TFQ-Data、視覺強化學習方法TFQ-GRPO，以及結構化評估基準TFQ-Bench。我們基於TFQ-Data數據集採用TFQ-GRPO方法訓練的全開源MetaphorStar系列模型，在圖像隱喻基準測試中實現平均82.6%的性能提升。與20餘個主流多模態大模型相比，MetaphorStar-32B在選擇題與開放式問答任務中達到最優水平，並在判斷題任務上顯著超越頂級閉源模型Gemini-3.0-pro。尤為重要的是，實驗表明學習圖像隱喻任務能有效增強模型的通用理解能力，特別是複雜視覺推理能力。我們進一步系統分析了模型參數規模、訓練數據量、不同架構與訓練策略的影響，驗證了方法的廣泛適用性。所有模型權重、數據集及方法代碼均已開源於https://metaphorstar.github.io。

预算约束下的智能体大语言模型：面向高成本工具使用的意图规划
Budget-Constrained Agentic Large Language Models: Intention-Based Planning for Costly Tool Use

Feb 12

ByHanbing Liu, Chunhao Tian, Nan An, Ziyuan Wang, Pinyan Lu, Changyuan Yu, Qi Qi

我们研究预算受限的工具增强智能体，该场景要求大型语言模型在严格货币预算下通过调用外部工具完成多步任务。我们将此设定形式化为上下文空间中的序列决策问题，其中工具执行具有价格随机性，由于巨大的状态-动作空间、结果的高方差以及高昂的探索成本，直接规划变得难以处理。为解决这些挑战，我们提出INTENT——一种推理时规划框架，该框架利用意图感知的分层世界模型来预测未来工具使用情况，通过风险校准成本在线指导决策。在成本增强版StableToolBench上的实验表明，INTENT在严格保证硬预算可行性的同时，显著提升了任务成功率，并且在工具价格波动、预算变化等动态市场条件下仍保持稳健性能。

ScalSelect：面向高效视觉指令调优的可扩展免训练多模态数据选择方法
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

Feb 12

ByChangti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen

大规模视觉指令调优（VIT）已成为提升视觉语言模型（VLM）在多模态任务中性能的关键范式。然而，由于数据冗余，基于大规模数据集的训练计算成本高昂且效率低下，这推动了对多模态数据选择以提升训练效率的需求。现有的VIT数据选择方法要么需要昂贵的训练或梯度计算，而免训练方案往往依赖代理模型或数据集、与指令无关的表征，以及具有二次方复杂度的成对相似性计算，限制了可扩展性和表征保真度。本研究提出ScalSelect——一种可扩展的免训练多模态数据选择方法，其时间复杂度与样本数量呈线性关系，且无需外部模型或辅助数据集。ScalSelect首先通过提取目标VLM中指令令牌最关注的视觉特征来构建样本表征，从而捕获指令相关信息；随后识别其表征最能逼近全量数据集表征主导子空间的样本，实现无需成对比较的可扩展重要性评分。在多个VLM、数据集及选择预算下的广泛实验表明，ScalSelect仅使用16%的数据即可达到全量数据集训练性能的97.5%以上，在某些设定下甚至超越全量训练效果。代码已开源於https://github.com/ChangtiWu/ScalSelect。

通过推理结构收敛检测RLVR训练数据
Detecting RLVR Training Data via Structural Convergence of Reasoning

Feb 12

ByHongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang

基于可验证奖励的强化学习（RLVR）是训练现代推理模型的核心技术，但由于训练数据未公开，引发了关于基准测试污染的担忧。与使用词元级概率优化模型的预训练方法不同，RLVR根据自生成推理轨迹的奖励反馈对模型进行微调，这使得传统的基于似然度的检测方法效果有限。我们发现RLVR会引发独特的行为特征：在RLVR训练中接触过的提示会导致生成结果更趋僵化且相似，而未见过的新提示则保持更高的多样性。我们提出Min-kNN距离检测法——一种简单的黑盒检测器，通过为给定提示采样多个补全结果，并计算k个最小最近邻编辑距离的平均值来量化这种坍缩现象。该方法无需参考模型参数或词元概率即可实现检测。在多款RLVR训练的推理模型上的实验表明，Min-kNN距离能可靠区分RL训练所见示例与未见示例，其性能优于现有的成员推断与RL污染检测基线方法。

ABot-N0：面向通用具身导航的VLA基础模型技术报告
ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

Feb 12

ByZedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu

长期以来，具身导航领域因任务专用架构而处于割裂状态。我们推出ABot-N0——一个统一的视觉-语言-动作基础模型，实现了点目标导航、物体目标导航、指令跟随、兴趣点导航及行人跟随这五大核心任务的"大一统"。该模型采用分层式"大脑-动作"架构，将基于大语言模型的认知大脑（负责语义推理）与基于流匹配的动作专家（生成精确连续轨迹）相结合。为支撑大规模学习，我们开发了ABot-N0数据引擎，在7,802个高保真3D场景（总面积10.7平方公里）中构建了1,690万条专家轨迹和500万条推理样本。ABot-N0在7项基准测试中均达到最新顶尖性能，显著超越各类专用模型。此外，我们的智能导航系统融合了规划器与分层拓扑记忆机制，可在动态现实环境中执行鲁棒的长时程任务。

Stemphonic：一体化灵活多音轨音乐生成系统
Stemphonic: All-at-once Flexible Multi-stem Music Generation

Feb 10

ByShih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan

音乐音轨生成技术能够生成音乐同步且分离的乐器音频片段，与传统文本到音乐模型相比，该技术具有更强的用户控制能力，并能更好地契合音乐制作工作流程。然而现有音轨生成方法要么依赖固定架构并行输出预设音轨组合，要么每次仅生成单一音轨，虽在音轨组合方面具有灵活性，却导致推理速度缓慢。我们提出Stemphonic这一基于扩散/流模型的框架，通过单次推理生成可变数量的同步音轨，成功突破了上述局限。在训练阶段，我们将每个音轨作为批次元素处理，将同步音轨编组后对每组应用共享噪声潜变量。推理时则采用共享初始噪声潜变量与音轨特定文本输入，实现单次推理生成同步多音轨输出。我们进一步扩展该方法，支持单次条件化多音轨生成及音轨活动度控制，使用户能迭代生成并精确编排混音的时间分层结构。通过在多个开源音轨评估集上的测试表明，Stemphonic在将完整混音生成速度提升25%至50%的同时，能产出更高质量的音频结果。演示地址：https://stemphonic-demo.vercel.app。

神经可加专家：基于情境门控的可控模型可加性专家系统
Neural Additive Experts: Context-Gated Experts for Controllable Model Additivity

Feb 11

ByGuangzhi Xiong, Sanchit Sinha, Aidong Zhang

可解释性与准确性的权衡始终是机器学习领域的核心挑战。标准广义可加模型（GAMs）虽能提供清晰的特征归因，但其严格的加性结构常会限制预测性能。引入特征交互可提升准确性，却可能模糊个体特征的贡献度。为解决这些问题，我们提出神经可加专家模型（NAEs）——一种在可解释性与准确性间实现无缝平衡的创新框架。NAEs采用专家混合框架，为每个特征学习多个专用网络，同时通过动态门控机制整合跨特征信息，从而突破刚性加性约束。此外，我们提出针对性正则化技术以降低专家预测间的方差，实现从纯加性模型到捕获复杂特征交互模型的平滑过渡，同时保持特征归因的清晰度。通过理论分析和合成数据实验，我们验证了该模型的灵活性；在真实数据集上的广泛评估表明，NAEs在预测准确性与透明化特征级解释之间达到了最优平衡。代码详见https://github.com/Teddy-XiongGZ/NAE。