HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

42 papers found

Mega-ASR：透過擴展真實世界聲學模擬實現野外二次方語音辨識
Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

May 19

ByZhifei Xie, Kaiyu Pang, Haobin Zhang, Deheng Ye, Xiaobin Hu, Shuicheng Yan, Chunyan Miao

110

儘管自動語音辨識（ASR）與大型音訊語言模型快速發展，在真實世界環境中的穩健辨識仍受到「聲學穩健性瓶頸」的限制：模型在嚴重且複合性的失真下，往往會失去聲學基礎，產生遺漏或幻覺。我們提出 Mega-ASR，一個統一的戶外 ASR 框架，結合可擴展的複合數據建構與漸進式聲學到語意最佳化。我們引入 Voices-in-the-Wild-2M 資料集，涵蓋 7 種經典聲學現象與 54 種物理可行的複合情境，並以聲學到語意的漸進式監督微調（Acoustic-to-Semantic Progressive Supervised Fine-Tuning）以及雙粒度 WER 門控策略最佳化（Dual-Granularity WER-Gated Policy Optimization）訓練 Mega-ASR。大量實驗證明，Mega-ASR 在惡劣條件 ASR 基準測試中，相較於先前最先進的系統具有顯著優勢（在 VOiCES R4-B-F 上為 45.69% 比 54.01%，在 NOIZEUS Sta-0 上為 21.49% 比 29.34%）。在複雜的複合聲學情境中，Mega-ASR 相較於強大的開源與閉源基線，進一步實現超過 30% 的相對詞錯誤率降低，為戶外穩健 ASR 建立了一個可擴展的典範。

Video2GUI：为通用图形用户界面智能体预训练合成大规模交互轨迹
Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

May 14

ByWeimin Xiong, Shuhao Gu, Bowen Ye, Zihao Yue, Lei Li, Feifan Song, Sujian Li, Hao Tian

近年來，多模態大語言模型的進展推動了對圖形使用者介面（GUI）代理的日益關注，但其泛化能力仍受到缺乏涵蓋多樣真實應用場景大規模訓練資料的限制。現有資料集高度依賴昂貴的人工標註，且通常僅限於狹窄領域。為解決此挑戰，我們提出 Video2GUI，一個全自動框架，可直接從未標記的網路影片中提取基於 GUI 的互動軌跡。Video2GUI 採用從粗到細的過濾策略，識別高品質的 GUI 教學影片，並將其轉換為結構化的代理軌跡。我們將此流程應用於 5 億筆影片元數據，構建了 WildGUI 資料集，該大規模資料集包含超過 1,500 個應用程式與網站的 1,200 萬條互動軌跡。在 WildGUI 上預訓練 Qwen2.5-VL 與 Mimo-VL 後，在多個 GUI 定位與動作基準測試中取得 5% 至 20% 的持續提升，達到或超越當前最佳表現。我們將公開釋出 WildGUI 資料集與 Video2GUI 流程，以支援未來 GUI 代理的研究。

增強免訓練無限幀生成以生成連貫的長影片
Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

May 18

ByX. Feng, J. Zhu, M. Wu, C. Chen, F. Mao, H. Guo, J. Wu, X. Chu, K. Huang

在不显著增加计算开销的前提下，免训练长视频生成旨在使基础视频生成模型能够生成更长的视频。帧级自回归框架（如FIFO-diffusion）具有以恒定内存消耗生成无限长视频的优势。然而，训练与推理之间的不匹配，以及维持长期一致性的挑战，限制了基础模型的有效利用。为解决这些问题，我们提出MIGA，一种新型的无限帧长视频生成方法。首先，我们提出一种有效的两阶段对齐机制，通过减小输入模型的噪声跨度来缓解训练-推理差距。随后，我们引入创新的双重一致性增强机制：自反射方法修正早期高噪声帧，远程帧引导方法利用后期覆盖范围广的低噪声帧来指导生成，共同提升时间一致性。在VBench和NarrLV上的大量实验表明，MIGA达到了最先进的性能。我们的项目页面位于https://xiaokunfeng.github.io/miga_homepage/。

IndusAgent：透過代理工具強化開放詞彙工業異常檢測
IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

May 20

ByRongbin Tan, Fangfang Lin, Zhenlong Yuan, Min Qiu, Kejin Cui, Mengmeng Wang, Yi Wang, Zijian Song, Zhiyuan Wang, Jiyuan Wang, Yue Wang, Shuhan Song§, Huawei Cao

多模态大语言模型（MLLMs）在连接视觉感知与文本推理方面展现出卓越能力，使其能够在多种工业场景中实现零样本理解。然而，在开放词汇的工业异常检测（IAD）任务中，其性能常受限于领域偏差推理与幻觉化结构推断。为应对这些挑战，我们提出IndusAgent——一个面向开放词汇工业异常检测的工具增强型智能体框架。具体而言，我们首先构建了Indus-CoT结构化数据集，该数据集融合全局视觉观测、高分辨率局部图像块及专家正常性先验知识，为模型在严格工业检测轨迹上的微调提供监督。在此基础上，IndusAgent动态协调一组外部工具，包括动态区域裁剪、高频特征增强及先验检索，使智能体能够主动解决视觉歧义并分离细微异常。此外，我们引入门控强化学习目标，联合优化异常分类、定位精度、异常类型推理及工具使用效率，确保仅在有益时才触发工具调用。在MVTec-AD、VisA、MPDD、DTD和SDD五个工业异常基准上的广泛评估表明，IndusAgent在所有现有方法中实现了最优的零样本性能，验证了其鲁棒性与泛化能力。

只需極簡RLVR訓練：通過秩-1軌跡外推大語言模型
You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

May 20

ByZhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

基于可验证奖励的强化学习（RLVR）已成为提升大语言模型（LLM）推理能力的主流范式，然而由此产生的参数轨迹的底层几何结构仍未被充分探索。本文证明RLVR的权重轨迹具有极低秩性和高度可预测性。具体而言，我们发现下游性能提升的大部分收益可通过参数变化的秩一近似捕获，且该投影的大小随训练步数呈近线性演化。基于此，我们提出了一种简单且计算高效的方法RELEX（强化学习外推法），该方法通过短观测窗口估计秩一子空间，并利用线性回归外推未来检查点，无需任何学习模型。在三个模型（Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base）上的实验表明，RELEX生成的检查点在领域内和领域外基准测试中均能媲美甚至超越完整RLVR训练的性能，且仅需完整RLVR训练15%的步数。值得注意的是，RELEX能以零训练成本在远超出观测窗口的范围进行外推，能预测超出观测前缀10-20倍的检查点且性能持续提升（例如，仅观测前50步即可外推至1000步）。我们的消融分析证实了RELEX的极简充分性：无论是增加子空间秩还是采用非线性建模，均无法进一步提升外推效果。最后，我们指出RELEX的成功源于"去噪"效应：通过将更新投影到秩一子空间，模型丢弃了在外推过程中会损害性能的随机优化噪声。我们的代码已开源至https://github.com/weizhepei/RELEX。

OScaR：面向大型語言模型及更廣泛領域中極端KV緩存量化的奧卡姆剃刀
OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond

May 19

ByZunhai Su, Rui Yang, Chao Zhang, Yaxiu Liu, Yifan Zhang, Wei Wu, Jing Xiong, Dayou Du, Xialie Zhuang, Yulei Qian, Yuchen Xie, Yik-Chung Wu, Hongxia Yang, Ngai Wong

朝向長上下文推理與多模態智慧的快速進展，使得鍵值（KV）快取的記憶體佔用成為高效部署的主要記憶體瓶頸。儘管已建立的每通道量化能有效應對鍵（Key）張量中內在的通道級異常值，但在極端壓縮下其效果會減弱。本研究從經驗與理論角度重新審視每通道量化範式的內在限制。我們的分析指出，**令牌範數不平衡（Token Norm Imbalance, TNI）** 是量化保真度的主要瓶頸。我們證明，當共享量化參數需涵蓋範數差異顯著的令牌群組時，TNI 會系統性地放大誤差。不同於依賴複雜量化流程（如 TurboQuant）的做法，我們提出 **OScaR（全尺度通道化旋轉，Omni-Scaled Canalized Rotation）**，這是一個針對 X-LLM（即純文字、多模態與全模態 LLM）的精準且輕量級 KV 快取壓縮框架。OScaR 在每通道量化範式基礎上，採用通道化旋轉搭配全域令牌縮放，有效且高效地減輕 TNI 引起的序列維度變異，並進一步透過最佳化的系統設計與 CUDA 核心提供支援。在 X-LLM 上進行的廣泛評估顯示，OScaR 持續優於現有方法，且在 INT2 量化下實現近乎無損的性能，成為一個穩健、低複雜度且通用的框架，並定義了新的 Pareto 前沿。與 BF16 FlashDecoding-v2 基線相比，我們的 OScaR 實現在解碼中獲得高達 3.0 倍的加速、記憶體佔用減少 5.3 倍，並使吞吐量提升 4.1 倍。OScaR 的程式碼公開於 https://github.com/ZunhaiSu/OScaR-KV-Quant。

大型音訊語言模型綜述：泛化能力、可信度與展望
A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook

May 18

ByKaiwen Luo, Zhenhong Zhou, Leo Wang, Liang Lin, Yang Xiao, Tianyu Shao, Yuanhe Zhang, Yuxuan Li, Miao Yu, Kailin Lyu, Jiaming Zhang, Dongrui Liu, Li Sun, Yueming Wu, Kai Li, Ting Dang, Xiaojun Jia, Rohan Kumar Das, Xinfeng Li, Siyuan Liang, Qiufeng Wang, Xingjun Ma, Jing Chen, Kun Wang, Junhao Dong, Deqing Zou, Yu Cheng, Xia Hu, Zhigang Zeng, Sen Su, Yang Liu, Yu-Gang Jiang, Philip S. Yu, Yew-Soon Ong

大型語言模型（LLMs）所奠定的基礎能力，為多模態大型語言模型（MLLMs）開闢了道路，其中大型音訊語言模型（LALMs）對於實現通用聽覺智慧至關重要。儘管這類模型展現出卓越的表現，但其能力的快速提升已顯著超越系統性可信賴性框架的發展。本綜述深入探討LALMs的內生機制，詳述促進湧現推理的架構創新與對齊演算法。具體而言，我們分析從統一端到端框架的轉型以及連續聲學訊號的整合，如何從根本上擴展攻擊面。為嚴格評估這些範式內的風險，我們建立了一套全面的可信賴性分類法，劃分關鍵漏洞，例如跨模態越獄、潛在聲學後門以及生物特徵隱私洩漏。我們透過六大分析支柱回顧當前最新技術：幻覺、穩健性、安全性、隱私、公平性與認證。成熟的攻擊面與相對不足的防禦之間存在深刻失衡，這進一步驗證了以音訊為中心的智慧所面臨的重大可信賴性差距與多維風險。最後，我們提出策略性藍圖，倡導「縱深防禦」架構、因果聽覺世界模型以及內在表徵工程，以彌合實證效能與內在可信賴音訊智慧之間的鴻溝。我們的專案已上傳至GitHub：https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs。

相輔相成：大型語言模型中脈絡完整性的互補自蒸餾
It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

May 18

BySangwoo Park, Woongyeong Yeo, Seanie Lee, Yumin Choi, Hyomin Lee, Kangsan Kim, Jinheon Baek, Seong Joon Oh, Sung Ju Hwang

情境完整性（Contextual Integrity, CI）不僅將隱私定義為單純隱藏信息，而是根據特定情境的規範來管理資訊流動。隨著大型語言模型日益被部署為處理敏感工作流程的個人代理，遵循CI變得至關重要。然而，即使是前沿模型在做出揭露決策時仍不可靠，現有的緩解策略常會降低底層任務效能。為克服此隱私-效用權衡，我們提出SELFCI，一種互補性的自我蒸餾框架，將資訊抑制與任務解析脫鉤。SELFCI根據來自反饋的兩個不同教師分佈，共同優化兩個獨立的反向KL散度：一個鼓勵保留任務相關資訊以維持效用，另一個則強制實現最小且恰當的揭露。此互補性公式產生了專家乘積（Product-of-Experts, PoE）目標，使策略與能力和隱私需求交集保持一致。實證評估顯示，SELFCI無需依賴昂貴的外部監督，即持續優於競爭基線，例如線上強化學習演算法（如GRPO）。這些趨勢進一步延伸至涉及代理工作流程與累積私密情境的領域外設定，表明SELFCI為實現CI校準提供了實用路徑。

Toto 2.0：時間序列預測進入規模化時代
Toto 2.0: Time Series Forecasting Enters the Scaling Era

May 19

ByEmaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker

我们展示了时间序列基础模型的可扩展性：单一训练方案即可在4M至2.5B参数范围内实现可靠的预测质量提升。我们发布了Toto 2.0模型系列，包含五个基于该方案训练的开源权重预测模型。Toto 2.0系列在三个预测基准上创下新纪录：BOOM（我们的可观测性基准）、GIFT-Eval（标准通用基准）以及近期推出的抗污染TIME基准。本报告描述了我们的实验结果，并详述了Toto 2.0的设计决策：包括其架构与训练方案、训练数据，以及u-muP超参数迁移流水线。所有五个基础检查点均已在Apache 2.0协议下开源。

Mix-Quant：量化預填充，精確解碼於智能體大型語言模型
Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs

May 19

ByHaiquan Lu, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang

LLM 代理近期已成為解決複雜任務的強大範式，透過規劃、工具使用、記憶檢索及多步驟互動來達成目標。然而，此類代理工作流程往往引入大量輸入端的開銷，使得運算密集的預填充階段成為長上下文、多輪推理中的關鍵瓶頸。在本研究中，我們提出 Mix-Quant，一種簡單且有效的相位感知量化框架，用於加速代理推理。我們首先針對 LLM 代理工作流程中的 FP4 量化進行探討，發現對整個推理過程進行量化會導致顯著的性能下降。相較之下，預填充階段表現出大量的量化冗餘，因此可以在精度損失最小的情況下進行量化，儘管它是運算的主要來源。基於此洞察，我們對預填充階段應用高吞吐量的 NVFP4 量化，同時保留 BF16 精度用於解碼階段。透過將預填充加速與解碼品質解耦，Mix-Quant 結合相位感知的演算法量化與硬體高效的 NVFP4 執行，以緩解 LLM 代理中的推理瓶頸。在長上下文與代理基準測試上的廣泛實驗表明，Mix-Quant 能大幅保留任務性能，同時顯著提升效率，在預填充過程中實現高達 3 倍的加速。

生成式遞迴推理
Generative Recursive Reasoning

May 20

ByJunyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn

未來的神經推理系統應如何實現擴展計算？遞歸推理模型（RRMs）透過共享轉換函數進行迭代潛在狀態精煉，為自迴歸序列擴展提供了有前景的替代方案。然而現有的RRMs大多為確定性模型，遵循單一潛在軌跡並收斂至單一預測。我們引入了生成式遞歸推理模型（GRAM），這是一個將遞歸潛在推理轉化為機率性多軌跡計算的框架。GRAM將推理建模為隨機潛在軌跡，從而支持多種假設、替代解題策略，並透過遞歸深度和平行軌跡取樣實現推理時擴展。這產生了一個潛在變數生成模型，支援透過p_θ(y|x)進行條件推理，以及透過固定或無輸入的p_θ(x)進行無條件生成。透過攤銷變分推斷進行訓練，GRAM在結構化推理與多解約束滿足任務上勝過確定的遞迴與遞歸基線，同時展現無條件生成的能力。https://ahn-ml.github.io/gram-website

CutVerse：一個用於媒體後期製作剪輯的組合式GUI智能體基準測試
CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

May 19

ByHaobo Hu, Xiangwu Guo, Zhiheng Chen, Difei Gao, Haotian Liu, Libiao Jin, Qi Mao

虽然GUI代理在网页导航和基本操作系统任务方面取得了显著进展，其在专业创意工作流中的能力仍未得到充分探索。为填补这一空白，我们提出Cutverse——一个旨在系统评估自主GUI代理在真实媒体后期制作环境中表现的基准测试。我们整理了7款专业应用（如Premiere Pro、Photoshop）中的专家演示，涵盖186项基于真实编辑流程的复杂长周期任务，涉及密集的多模态界面与高度耦合的交互序列。为了实现可扩展的评估，我们开发了一个轻量级解析器，将原始屏幕录制和低层交互日志转化为结构化的、组合式GUI动作轨迹，并具备精确的定位能力。广泛评估显示，现有代理在真实媒体编辑任务中仅达到36.0%的成功率，这凸显了我们的基准测试中复杂、长周期媒体后期制作工作流所带来的挑战。尽管当前模型在空间定位、多模态对齐和协调动作执行方面展现出潜力，但在长周期可靠性和领域特定规划方面仍存在局限。

Uni-Edit：智能編輯是統一模型微調的通用任務
Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

May 20

ByDian Zheng, Manyuan Zhang, Hongyu Li, Hongbo Liu, Kai Zou, Kaituo Feng, Hongsheng Li

目前，提升統一多模態模型（UMMs）在影像理解、生成與編輯方面的能力，主要依賴混合多任務訓練。由於任務間存在固有衝突，此類策略需要複雜的多階段流程、大量的數據混合以及平衡技巧，最終僅能達成性能上的取捨，而非真正的相互強化。為打破此一範式，我們提出 Uni-Edit，一項智慧型影像編輯任務，作為 UMM 調校的首個通用任務。與複雜的混合流程不同，Uni-Edit 僅需單一任務、單一訓練階段與單一數據集，即可同時提升所有三項能力。具體而言，我們首先認定影像編輯本質上即為理想的通用任務，因其自然同時需要視覺理解與生成能力。然而，現有的編輯數據依賴於過於簡化的指令，嚴重低估了模型的理解潛力。為解決此問題，我們引入了第一個自動化、可擴展的數據合成流程，專門用於智慧型編輯，將多樣的 VQA 數據轉換為嵌入問題與嵌套邏輯的複雜且有效的編輯指令。由此產生的 Uni-Edit-148k 數據集，將大量推理密集型指令與高品質的編輯影像配對。在 BAGEL 與 Janus-Pro 上的廣泛實驗顯示，僅以 Uni-Edit 進行調校，無需任何輔助操作，即可在所有三項能力上實現全面性提升。

LLMEval-Logic：一個經求解器驗證的、具備對抗性強化的中文大型語言模型邏輯推理基準
LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening

May 19

ByMing Zhang, Qiyuan Peng, Yinxi Wei, Yujiong Shen, Kexin Tan, Yuhui Wang, Zhenghao Xiang, Junjie Ye, Zhangyue Yin, Zhiheng Xi, Shihan Dou, Tao Gui, Maxm Pan, Ruizhi Yang, Qi Zhang, Xuanjing Huang

評估大型語言模型（LLMs）在自然語言邏輯推理上的表現至關重要，因為基於規則的任務要求結論必須嚴格遵循給定的前提。許多現有的邏輯推理基準測試是透過從取樣公式中模板化自然語言項目來生成的，它們僅提供粗略或未經審核的形式化標註，且目前已迅速被前沿推理模型飽和。我們提出LLMEval-Logic，一個基於真實情境場景的中文邏輯推理基準。其流程由正向作者與專家審核共同產生自然語言項目及其參考形式化表述，利用Z3驗證註解答案，為自然語言到形式語言的評分建構專家評分量規，並透過封閉循環的對抗性工作流程強化選定項目。該基準以兩組配對子集發布：包含246個項目的基礎子集，附有1,400個專家開發的評分量規原子；以及包含190個項目的困難子集，附有938個跨越封閉模型空間的多步驟子問題。在LLMEval-Logic上評估14個前沿LLM，揭示了當前模型的顯著差距：最佳模型僅達到37.5%的困難項目準確率，即便提供參考符號，所有受評模型中最高的Z3+評分量規聯合形式化分數也僅達60.16%。我們的基準公開於 https://github.com/llmeval/LLMEval-Logic。

HRM-Text：超越规模的高效预训练
HRM-Text: Efficient Pretraining Beyond Scaling

May 20

ByGuan Wang, Changling Liu, Chenyu Wang, Cai Zhou, Yuhao Sun, Yifei Wu, Shuai Zhen, Luca Scimeca, Yasin Abbasi Yadkori

目前大语言模型的预训练范式依赖于海量算力和互联网规模的原始文本，这为基础研究设置了显著的门槛。相比之下，生物系统通过多时间尺度处理（例如额顶叶环路的功能组织）展现出极高的样本效率。受此启发，我们提出HRM-Text，用层级递归模型（HRM）替代标准Transformer，将计算解耦为缓慢演化的策略层与快速演化的执行层。为稳定这种深度递归在语言建模中的应用，我们引入MagicNorm与预热深度信用分配。此外，我们摒弃了标准的原始文本预训练，转而仅使用指令-响应对进行训练，采用任务完成目标与PrefixLM掩码。作为高效预训练的经验性存在证明，一个从头训练的10亿参数HRM-Text模型仅使用400亿唯一词元和1500美元预算，便在MMLU上达到60.7%，ARC-C上81.9%，DROP上82.2%，GSM8K上84.5%，MATH上56.2%。尽管相较于标准基线，其训练词元量减少约100-900倍，估算算力减少96-432倍，HRM-Text仍能与20-70亿参数的开源模型竞争。这些结果表明，通过协同设计架构与目标，能够根本性地降低算力与性能之比，使从零开始的预训练对更广泛的研究社区触手可及。

評估代理式規劃執行管線中的時序語意快取與工作流程最佳化
Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

May 20

ByAlimurtaza Mustafa Merchant, Krish Veera, Sajal Kumar Goyla, Shambhawi Bhure, Dhaval Patel, Kaoutar El Maghraoui

工業資產運營工作流程對延遲敏感，因為單一用戶查詢可能需要協調感測器數據、工單、故障模式、預測工具和特定領域代理。我們在 AssetOpsBench（AOB）上評估此問題，這是一個工業代理基準測試，其規劃-執行管道會因工具發現、LLM 規劃、MCP 工具執行和最終摘要而反覆產生開銷。現有的 LLM 快取技術（如 KV 快取重用和基於嵌入的語義快取）是為聊天機器人服務設計的，當輸出有效性取決於時間、資產或感測器參數時，這些技術會失效。我們針對 AOB 的規劃-執行管道提出兩種互補的優化層：時間語義快取和一組 MCP 工作流程優化，結合了磁碟支援的工具發現快取和依賴感知的並行步驟執行。MCP 工作流程優化帶來 1.67 倍的加速，並將中位端到端延遲降低約 40.0%，而時間快取基準測試在快取命中時實現了中位 30.6 倍的加速。除了加速效果外，我們的結果還揭示了純語義快取在參數豐富的工業查詢中的具體失敗模式，提供了對快取選擇如何影響 MCP 支援的代理基準測試評估正確性的關鍵分析。

論AI審稿人的限制與機會：與45位專家科學家審視Nature系列論文的審稿意見
On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

May 20

BySeungone Kim, Dongkeun Yoon, Kiril Gashteovski, Juyoung Suk, Jinheon Baek, Pranjal Aggarwal, Ian Wu, Viktor Zaverkin, Spase Petkoski, Daniel R. Schrider, Ilija Dukovski, Francesco Santini, Biljana Mitreska, Yong Jeong, Kyeongha Kwon, Young Min Sim, Dragana Manasova, Arthur Porto, Biljana Mojsoska, Makoto Takamoto, Marko Shuntov, Ruoqi Liu, Hyunjoo Jenny Lee, Niyazi Ulas Dinç, Yehhyun Jo, Sunkyu Han, Chungwoo Lee, Huishan Li, Esther H. R. Tsai, Ergun Simsek, Khushboo Shafi, Yeonseung Chung, Jihye Park, Aleksandar Shulevski, Henrik Christiansen, Yoosang Son, Elly Knight, Amanda Montoya, Jeongyoun Ahn, Christian Langkammer, Heera Moon, Changwon Yoon, Nikola Stikov, Mooseok Jang, Edward Choi, Junhan Kim, Yeon Sik Jung, Woo Youn Kim, Jae Kyoung Kim, Ishraq Md Anjum, Hyun Uk Kim, Drew Bridges, Carolin Lawrence, Xiang Yue, Alice Oh, Akari Asai, Sean Welleck, Graham Neubig

隨著人工智慧能力的進步，AI 審稿人開始被應用於科學同儕審查中，然而其能力與可信度仍備受質疑：許多科學家僅將其視為機率系統，缺乏評估研究的專業能力；而另一些研究人員則在缺乏具體證據的情況下，對其準備就緒程度抱持較樂觀的態度。了解 AI 審稿人的優勢、不足之處以及尚存的挑戰至關重要。然而，現有對 AI 審稿人的評估主要聚焦於其評判是否與人類評判一致（例如分數相符性、接受與否的預測），這不足以全面描述其能力與限制。本文透過大規模專家註釋研究來填補此一缺口：45 位來自物理、生物與健康科學領域的科學家，耗費 469 小時，針對 82 篇《自然》系列論文的人類撰寫與 AI 生成的審稿意見中，共 2,960 條具體批評（每條針對論文的某一特定面向），就正確性、重要性與證據充分性進行評分。在三個面向的綜合評分中，基於 GPT-5.2 的審稿代理得分高於每篇論文中評價最高的人類審稿人（60.0% 對 48.2%，p = 0.009），而所有三個 AI 審稿人（包括 Gemini 3.0 Pro 與 Claude Opus 4.5）在每個面向上的表現均超過評價最低的人類審稿人。AI 審稿人提出的準確批評，也更常被評為重要且證據充分，並能揭露 26% 人類未曾提出的獨特問題。然而，AI 審稿人之間的重疊程度遠高於人類審稿人之間（跨審稿人配對的重疊率為 21% 對 3%），並展現出人類審稿人沒有的 16 項重複性弱點，例如對子領域知識有限、缺乏跨多個檔案的長上下文管理能力，以及對小問題過於嚴苛的評論立場。整體而言，我們的研究結果顯示，當前的 AI 審稿人定位為人類審稿人的補充，而非替代品。

OcclusionFormer：為基於佈局的圖像生成安排Z順序
OcclusionFormer: Arranging Z-Order for Layout-Grounded Image Generation

May 20

ByZiye Li, Henghui Ding

近年來，佈局到圖像生成模型在空間可控性方面取得了顯著進展。然而，這類模型在處理物體間遮擋問題時仍面臨挑戰。當邊界框重疊時，現有方法大多缺乏明確的遮擋資訊，導致重疊區域的生成本質上存在歧義，且難以判定複雜的遮擋關係。因此，它們常在重疊區域產生糾纏的紋理或物理不一致的疊層。為解決此問題，我們首先建構了SA-Z，一個包含明確遮擋順序與像素級標註的大規模資料集。基於所提出的資料集，我們引入了OcclusionFormer，一種新穎的遮擋感知擴散變壓器框架，通過解耦實例並利用體積渲染進行合成，從而明確建模Z軸順序優先權。此外，為確保細粒度的空間精確度，我們提出了一種查詢對齊損失，該損失能明確監督各個實例並增強語義一致性。所提出的方法有效減少了重疊區域的歧義性，強制了正確的遮擋依賴關係，並保持了結構完整性，從而在多樣場景中實現了顯著的精度提升。

Stable Audio 3
Stable Audio 3

May 18

ByZach Evans, Julian D. Parker, Matthew Rice, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Stable Audio 3 是一系列快速潛在擴散模型（包含小、中、大三種規模），專為可變長度的音訊生成與編輯而設計。由於我們的模型能夠生成數分鐘的音訊，因此採用可變長度生成機制，可避免為了生成短音效而耗費完整長度生成的運算成本。我們亦支援音訊修補功能，可實現針對性音訊編輯以及短錄音的延續生成。這些潛在擴散模型建立在新型的語義聲學自編碼器之上，該編碼器能將音訊投影至緊湊的潛在空間，從而在實現高效擴散生成之餘，同時保留音訊保真度並促進潛在空間內的語義結構。最後，我們採用對抗式後訓練，既能加速推理又能提升生成品質，在減少推理步驟數的同時，提高保真度與提示遵循度。Stable Audio 3 模型使用授權資料與創用 CC 資料進行訓練，能夠在 H200 GPU 上以不到 2 秒的速度生成音樂與音效，在 MacBook Pro M4 上則僅需數秒。我們開源了小規模與中規模模型的權重，這些模型可在消費級硬體上運行，並附帶其訓練與推理管線。

拼接價值模型用於擴散對齊
Stitched Value Model for Diffusion Alignment

May 19

ByHyojun Go, Hyungjin Chung, Prune Truong, Goutam Bhat, Li Mi, Zhaochong An, Zixiang Zhao, Dominik Narnhofer, Serge Belongie, Federico Tombari, Konrad Schindler

在实际应用中，基于扩散或流的生成模型必须与任务特定的奖励信号（如提示保真度或审美偏好）对齐。这一对齐过程颇具挑战性，因为奖励是针对干净输出图像定义的，而对齐过程需要在带有噪声的中间隐变量处进行价值函数估计。现有方法采用 Tweedie 式或蒙特卡洛近似，在估计偏差与计算代价之间进行权衡：Tweedie 估计效率高但有偏，而蒙特卡洛估计更精确但需要昂贵的轨迹展开。一种自然的替代方案是使用学习得到的价值函数，但如何针对噪声隐变量高效训练一个强大且通用的价值模型仍是一个开放问题。本文提出 StitchVM，一种模型拼接框架，能够将针对干净图像预训练的奖励模型高效迁移至噪声隐变量场景。StitchVM 从一个现成的、截断的像素空间奖励模型出发，将一个冻结的扩散骨干网络作为其头部附加其上。所得混合模型从像素空间模型继承了精心预训练的、稳健的奖励能力；从扩散骨干网络继承了其处理噪声隐变量的原生能力。拼接过程极为轻量：例如，将 CLIP ViT-L 与 SD 3.5 Medium 拼接并微调仅需 10 GPU 小时。通过将强大的像素空间奖励模型提升至隐空间，StitchVM 开辟了一种全新的扩散对齐方式：不再对每个样本进行粗略而昂贵的价值函数近似，而是为实际的噪声隐变量一次性构造正确的函数，并在众多样本和迭代次数中摊销计算成本。我们展示，该方法在多种下游引导和后训练方法中均能带来改进：DPS 速度提升 3.2 倍，同时峰值 GPU 内存减半；DiffusionNFT 速度提升 2.3 倍。

OCTOPUS：透過八面體參數化在最佳平方誤差量化下針對Transformer的最佳化KV快取
OCTOPUS: Optimized KV Cache for Transformers via Octahedral Parametrization Under optimal Squared error quantization

May 20

ByMark Boss, Vikram Voleti, Simon Donné, Shimon Vainer

键值（KV）缓存是长上下文自回归推理中内存带宽和占用的主要瓶颈。近期基于旋转预条件的编解码器（TurboQuant、PolarQuant）表明，结构化随机旋转后跟随与解析可处理边缘分布匹配的逐坐标标量量化器，是近乎最优的KV压缩方案。OCTOPUS通过联合量化旋转后的坐标三元组，推动了这一范式的发展。每个三元组的方向通过八面体参数化映射到正方形，得到的两个坐标与三元组范数则根据实现匹配的边缘分布进行Lloyd-Max量化。通过优化每个三元组的平方误差，实现了严格非均匀的比特分配，该分配仅依赖于键的总维度。我们通过扫描发现，在实际测试的每个解码器上，有限维度的质量最优值是恒定的。该编解码器是数据无关的、在线式的，且在给定种子时具有确定性。在文本、视频和音频数据上，OCTOPUS在每种报告的比特宽度和指标上均达到或超越所有先前的旋转编解码器，且在极端压缩下比特率降低时优势进一步扩大。此外，融合Triton实现可即时重构键，无需物化解压缩后的键，因此该编解码器在解码过程中不增加额外的带宽或延迟。项目页面：https://octopus-quant.github.io/

透過變分策略蒸餾從語言回饋中學習
Learning from Language Feedback via Variational Policy Distillation

May 18

ByYang Li, Erik Nijkamp, Semih Yavuz, Shafiq Joty

基於可驗證獎勵的強化學習（RLVR）存在結果信號稀疏的問題，這在複雜推理任務中造成了嚴重的探索瓶頸。近期的同策略自蒸餾方法試圖通過利用語言反饋生成密集的詞元級監督來解決此問題。然而，這些方法依賴於一個固定的被動教師模型來解讀反饋。隨著學生策略的改進，教師的零樣本評估能力趨於平緩，最終導致學習停滯。為克服此限制，我們提出變分策略蒸餾（VPD）框架，將從語言反饋中學習形式化為變分期望最大化（EM）問題。VPD使兩種策略共同演化：在E步中，教師通過自適應信任區域更新基於軌跡結果被主動優化，將文本反饋轉化為動態改進的目標詞元分佈；在M步中，學生在其自身的同策略推演中內化這種密集的分佈式引導。通過持續提升教師從文本評價中提取可行信號的能力，VPD克服了被動蒸餾的限制。在科學推理與代碼生成任務的多種診斷性反饋來源上的評估結果顯示，VPD consistently 優於標準RLVR及現有自蒸餾基線。最後，通過在嚴格數學推理與冷啟動場景中對框架進行壓力測試，我們闡明了與純環境驅動的RL相比，反饋驅動的自蒸餾的基本界限。

MOCHA：基於多目標切比雪夫退火的智能體技能優化
MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

May 19

ByMd Mehrab Tanjim, Jayakumar Subramanian, Xiang Chen, Branislav Kveton, Subhojyoti Mukherjee, Anlan Zhang, Sungchul Kim, Somdeb Sarkhel, Sunav Choudhury

LLM智能體透過技能組織行為——這些技能是結構化的自然語言規範，規範了智能體如何推理、檢索及回應。與單體提示詞不同，技能屬於多欄位構件，受到嚴格的平台限制：描述欄位會因路由需求而被截斷，指令主體透過漸進式揭露進行壓縮，而共存的技能則需競爭有限的上下文視窗。這些限制使得技能最佳化本質上成為多目標問題：一項技能必須同時最大化任務表現並滿足平台限制。然而，現有的提示詞最佳化工具若非忽略這些權衡取捨，就是將其簡化為加權總和，因而遺漏了非凸目標區域中的帕雷托最優變體。我們提出了MOCHA（多目標切比雪夫退火），它以切比雪夫標量化取代單目標選取——能涵蓋完整的帕雷托前緣（包括非凸區域）——並結合從探索轉向利用的指數退火。在我們針對六種不同智能體技能的實驗中（所有方法共用相同的多目標突變運算元，且基線皆獲得相同的每目標文字回饋），現有最佳化工具在六項任務中有四項無法改良種子技能：歷經一千次推演仍毫無進展。MOCHA則在所有任務上取得突破，平均正確率相較最強基線提升了7.5%（在FEVER上高達14.9%，在TheoremQA上達10.4%），同時發現了兩倍以上的帕雷托最優技能變體。

PanoWorld：一種用於一致性全屋全景合成的生成式空間世界模型
PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis

May 19

ByJinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi

從平面圖和風格參考生成一致的全屋VR導覽，需要兼顧逼真的全景圖與跨視角的空間一致性。純2D生成器能產出吸引人的單一全景圖，但當視角改變時會重新想像幾何結構與材質；而整體3D生成則成本高昂，且在多房間尺度下難以保留精細紋理。我們提出PanoWorld，這是一個生成式空間世界模型，將全屋合成視為基於節點之360度全景圖的自回歸生成，符合真實VR導覽產品所使用的離散導航模式。PanoWorld使用由平面圖衍生的3D外殼作為全局幾何代理，並以動態3D高斯潑濺快取作為可渲染的空間記憶。專為度量尺度多房間360度輸入設計的前饋全景大型重建模型，能將生成的全景圖提升為局部3DGS更新；而房間感知分組注意力則抑制跨房間的特徵干擾。拓撲感知的漸進式快取策略融合這些局部更新，無需反覆重建完整歷史。透過將基於外殼的幾何引導與基於快取渲染的可視記憶解耦，PanoWorld在保持高頻2D合成品質的同時，改善了跨節點的佈局與材質一致性。專案連結為 https://jjrcn.github.io/PanoWorld-project-home/

語言模型中 RLVR 的不可學習性現象
The Unlearnability Phenomenon in RLVR for Language Models

May 16

ByYulin Chen, He He, Chen Zhao

基於可驗證獎勵的強化學習（RLVR）已被證明能有效提升大型語言模型（LLM）的推理能力。然而，RLVR 的學習動態尚未被充分探索。本文揭示了一個違反直覺的現象：在模型最初難以處理的困難樣本中，即便存在正確的生成結果，仍有相當一部分樣本始終無法被學到。為理解此現象，我們首先證明現有的優化與採樣技術無法解決這種「無法學習性」。透過跨樣本的梯度分析，我們顯示無法學習的樣本存在根本性的表徵問題，其特徵為與其他樣本的梯度相似度低，且推理模式無法泛化。我們進一步說明，RL 訓練中難以修正表徵缺陷，因為數據增強並未改善梯度相似性。本研究首次對 RLVR 訓練中的無法學習數據進行系統性描述，並揭示當前 RL 方法在推理任務上的根本限制。程式碼與數據請見 https://github.com/yulinchen99/unlearnability-rlvr。

SpecBench：衡量長期視野的程式碼代理中的獎勵駭客行為
SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents

May 20

ByBingchen Zhao, Dhruv Srikanth, Yuxiang Wu, Zhengyao Jiang

隨著長程編碼代理產生的程式碼超出任何開發者能審查的範圍，監督便完全依賴於單一面向：自動化測試套件。此設置中自然會出現獎勵駭取現象，因為代理會優化測試通過率，同時偏離使用者的真實目標。我們透過將軟體工程任務分解為三個部分來研究此獎勵駭取現象：(i) 規格的自然語言描述；(ii) 可見的驗證測試，用於單獨執行指定功能；以及 (iii) 保留測試，用於組合這些功能以模擬實際使用情境。根據規格與可見的驗證測試套件，一個真正的代理應該能夠生成也能通過所有保留測試的解決方案。因此我們利用這兩個套件的通過率差距來量化獎勵駭取。基於此方法論，我們提出 SpecBench，這是一個包含 30 個系統級程式設計任務的基準測試，任務範圍從短程任務（如建置 JSON 解析器）到超長程任務（如從零開始建置整個作業系統核心）。大規模實驗揭示了一致的模式：雖然每個前沿代理在可見套件上達到飽和，但獎勵駭取仍然存在，其中較小模型在保留套件上顯示出更大的差距。差距也隨著任務長度急劇擴大：程式碼大小每增加十倍，差距就增加 28 個百分點。失敗案例從細微的功能隔離到蓄意的漏洞利用，包括一個 2,900 行的雜湊表「編譯器」，它記住了測試輸入。SpecBench 提供了一個有原則的測試平台，用於衡量編碼代理是建置真正的可行系統，還是僅僅玩弄開發者交給他們的測試套件。

MINTEval：多目標干擾下長程智能體系統的記憶評估
MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

May 19

ByHyunji Lee, Justin Chih-Yao Chen, Joykirat Singh, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal

在现实环境中，智能体需要在长期且不断变化的时间跨度中运作，信息会被反复更新，且可能在记忆之间产生干扰，这就要求其能够准确回忆并整合多条信息进行推理。然而，现有的基准测试主要关注静态、独立的回忆任务，未能捕捉到不断演变的记忆之间的动态交互作用。本文研究了当前记忆增强型智能体在充满干扰的长期、多领域及多类型问题场景下的表现。我们提出了MINTEval（长时域记忆干扰评估基准），该基准具有以下特点：（1）长篇幅、高度关联且信息频繁更新的上下文，能引发显著的干扰效应；（2）涵盖多种领域（状态追踪、多轮对话、维基百科修订及GitHub提交），可评估模型的领域泛化能力；（3）包含多种问题类型，用于评估模型对干扰的鲁棒性，包括（i）单目标回忆任务，要求从长上下文中检索特定目标，以及（ii）多目标聚合任务，要求对多个相关信息进行整合推理。总体而言，MINTEval包含15.6万个问答对，上下文平均长度为138.8k个词元，单个实例最长可达180万词元。我们评估了7个代表性系统，包括原始长上下文大语言模型、检索增强生成（RAG）以及记忆增强型智能体框架。在所有系统中，性能均持续偏低（平均准确率27.9%），尤其是在需要整合多条证据进行推理的问题上。分析表明，性能主要受限于检索过程和记忆构建。此外，现有的记忆系统难以回忆并推理被后续上下文修改或干扰的早期事实，且准确性会随着中间更新次数的增加而下降。

DPO 與 RLHF 的條件等價性：隱含假設、失效模式與可證明對齊
Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

May 20

ByZhiqin Yang, Yonggang Zhang, Wei Xue, Dong Fang, Bo Han, Yike Guo

直接偏好優化（DPO）已成為從人類反饋的強化學習（RLHF）的熱門替代方案，具有理論等效性且實現更簡單。我們證明這種等效性是有條件的而非普遍的，取決於一個在實踐中經常被違反的隱含假設：RLHF最優策略必須偏好人類偏好的回應。當這個假設失敗時，DPO優化的是相對於參考策略的相對優勢，而非與人類偏好的絕對對齊，導致病態收斂——策略在降低DPO損失的同時偏好非偏好回應。我們刻畫了該假設何時被違反，展示了不良解空間的存在，並證明在這種情況下DPO和RLHF優化的是根本不同的目標。為解決此問題，我們引入約束偏好優化（CPO），為RLHF增加約束以實現可證明的對齊。我們進一步通過軟間隔排序提供幾何解釋，揭示DPO實現的是可能具有負目標的間隔排序。我們的理論分析確立了DPO保證何時成立，並提供了既保持簡單性又具有可證明對齊的解決方案。在標準基準上的全面實驗表明，CPO達到了最先進的性能。代碼可在：https://github.com/visitworld123/CPO 獲取。

Mem-π：通過學習何時生成與生成什麼來實現自適應記憶
Mem-π: Adaptive Memory through Learning When and What to Generate

May 20

ByXiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian

我們提出了 Mem-π，一個專為大型語言模型（LLM）代理設計的自適應記憶框架，在此框架中，有用的指導是按需生成，而非從外部記憶庫中檢索而來。現有的記憶增強代理通常依賴於從情節記憶庫或技能庫進行基於相似度的檢索，返回的靜態條目往往與當前情境不一致。相比之下，Mem-π 使用一個專用的語言或視覺語言模型（配備獨立於下游代理的參數），為複雜任務生成具備情境特異性的指導。該模型根據代理的當前情境，共同決定何時生成指導以及生成何種指導。我們採用一套決策與內容解耦的強化學習（RL）目標來訓練該模型，使其能夠在生成無幫助時選擇放棄，否則生成簡潔且有用的指導。在橫跨網頁導航、終端工具使用及文字型具身互動等多樣化代理基準測試中，Mem-π 的表現始終優於基於檢索及先前 RL 最佳化的記憶基線，其中在網頁導航任務上實現了超過 30% 的相對改進。

UniT：基於群自回歸變換器的統一幾何學習
UniT: Unified Geometry Learning with Group Autoregressive Transformer

May 20

ByHaotian Wang, Yusong Huang, Zhaonian Kuang, Hongliang Lu, Xinhu Zheng, Meng Yang, Gang Hua

近年來的前饋模型在從感測觀測推斷密集三維結構的幾何感知方面取得了顯著進展。然而，其核心能力仍分散於多種不相容的典範之中，包括線上感知、離線重建、多模態整合、長時域可擴展性及度量尺度估計。我們提出UniT，這是一個基於新穎的群組自迴歸Transformer（Group Autoregressive Transformer）所建構的統一模型，將這些看似互異的能力重構於單一架構中。其核心思想是將群組的感測觀測視為基本的自迴歸單元，並以無錨點且尺度自適應的方式預測對應的點地圖。更具體來說，在線上與離線設定下的多樣視角配置，可自然地統一於單一群組自迴歸過程中。透過調整群組大小，線上模式以單幀群組進行多個自迴歸步驟，而離線模式則在單次前向傳遞中聚合多幀群組。同時，佇列式的鍵值快取機制確保了在長時域上的有界自迴歸記憶體。這是透過無錨點的關係建模來降低對早期幀的長程依賴性，從而允許即時捨棄過時的記憶體。為提升跨場景的度量尺度泛化能力，本框架中進一步引入了尺度自適應的幾何損失函數。該損失函數將相對幾何約束與部分絕對尺度項耦合，隱式地正則化全域尺度，並引發從尺度不變幾何到度量尺度解決方案的漸進過渡。結合專為整合輔助模態而設計的模態注意力模組，UniT在涵蓋七項代表性任務的十個基準測試中，實現了統一的幾何感知最新效能。

SaaSBench：探索編碼代理在長程企業級SaaS工程中的邊界
SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

May 17

ByQingnan Ren, Shun Zou, Shiting Huang, Ziao Zhang, Kou Shi, Zhen Fang, Yiming Zhao, Yu Zeng, Qisheng Su, Lin Chen, Yong Wang, Zehui Chen, Xiangxiang Chu, Feng Zhao

隨著自主編碼代理能夠處理越來越長期的任務，它們已逐漸展現出完成端到端軟體開發的潛力。雖然現有基準測試近期已從局部程式碼編輯演進到從零開始的專案生成，但它們仍僅限於結構簡化的單一架構應用。因此，這些基準無法捕捉真實企業軟體即服務（SaaS）系統中的異質環境、全端協調及系統級複雜度，這在評估代理在現實工程限制下的表現時留下了一個關鍵缺口。為填補此缺口，我們提出 SaaSBench，這是首個旨在探索 AI 代理在企業 SaaS 工程中邊界的基準測試。它涵蓋 6 個 SaaS 領域中的 30 項複雜任務，共 5,370 個驗證節點，並整合了 8 種程式語言、6 種資料庫及 13 種框架，細緻地反映真實軟體的異質性。此外，我們設計了一套專為長期期、多元件耦合的複雜系統量身打造的依賴感知混合評估範式，以實現細粒度且可重現的評估。關鍵的是，我們的大量實驗揭示了一個驚人洞察：當前最先進代理的主要瓶頸並非生成孤立的程式碼邏輯，而是成功配置與整合一個多元件系統。超過 95% 的任務失敗發生在代理甚至尚未觸及深層業務邏輯之前，模型往往因過度自信而在基礎系統設置階段過早停止，或陷入無效的除錯循環。我們希望 SaaSBench 能作為一個實用且具挑戰性的測試平台，推動可靠、系統級程式碼代理的演進。程式碼已於 https://github.com/ShadeCloak/SaaSbench 公開。

PlanningBench：生成可扩展且可驗證的規劃資料，用於評估與訓練大型語言模型
PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

May 20

ByZiliang Zhao, Zenan Xu, Shuting Wang, Hongjin Qian, Yan Lei, Minda Hu, Zhao Wang, Shihan Dou, Zhicheng Dou, Pluto Zhou

規劃能力是大型語言模型（LLM）的基本能力，因為這類複雜任務需要模型將目標、限制條件、資源與長期後果協調成可執行且可驗證的解決方案。然而，現有的規劃基準通常將規劃資料視為固定的實例集合，而非可控的生成目標。這限制了場景覆蓋範圍，將難度與表面代理（而非結構性來源）掛鉤，並且對可擴展生成、自動驗證或規劃導向訓練提供的支援有限。我們提出 PlanningBench，這是一個用於生成可擴展、多樣化且可驗證的規劃資料的框架，適用於評估與訓練。PlanningBench 從真實的規劃場景出發，將實務工作流程抽象化，形成一個包含超過 30 種任務類型、子任務、限制族與難度因素的分類結構。在此分類的引導下，一個基於限制驅動的合成管線會實例化出具有自適應難度控制、品質過濾與實例層級驗證清單的自足規劃問題。這使得規劃資料的構建從固定的基準收集轉向可控的生成，同時保留真實任務的基礎。我們使用 PlanningBench 評估開源與閉源的前沿 LLM，發現目前的模型在耦合限制下仍難以產出完整的解決方案。除了評估之外，在經過驗證的 PlanningBench 資料上進行強化學習，可提升模型在未見過的規劃基準與更廣泛的指令遵循任務上的表現。進一步的分析顯示，確定性或明確指定的最優解能提供更清晰的獎勵訊號與更穩定的訓練動態。總體而言，PlanningBench 提供了一個可控的規劃資料來源，用於診斷與提升 LLM 的通用規劃能力。

安全對齊作為持續學習：通過正交梯度投影緩解對齊稅
Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

May 12

ByGuanglong Sun, Siyuan Zhang, Liyuan Wang, Jun Zhu, Hang Su, Yi Zhong

安全後訓練能改善大型語言模型（LLMs）的危害性與政策遵循度，但可能同時降低通用能力，此現象常被稱為對齊稅。我們從持續學習的角度研究此權衡：序列式對齊階段使模型暴露於轉移的資料分佈與目標，其梯度可能干擾支撐先前通用能力的方向。此觀點並非主張所有對齊退化皆源自單一原因，而是提供一個實用的一階機制，以減輕一項重要的能力衰退源。我們提出安全對齊的正交梯度投影（OGPSA），這是一個輕量級更新規則，從少量通用能力資料的梯度中估計低秩參考子空間，並從每個安全梯度中移除位於此子空間的分量。所得更新是滿足參考目標一階保留條件下最陡的局部安全下降方向。OGPSA 與標準後訓練流程相容，且避免大規模重播，但會引入週期性的參考梯度計算。在監督式微調（SFT）、直接偏好最佳化（DPO）及序列式 SFT→DPO 設定下，OGPSA 改善了標準基線的觀察安全-效用權衡。在序列式 SFT→DPO 流程中，平均效能增益在 Qwen2.5-7B-Instruct 上從 33.98% 提升至 42.74%，在 Llama3.1-8B-Instruct 上從 19.74% 提升至 32.98%。我們已在 https://github.com/SunGL001/OGPSA 開源程式碼。

線控式學習訓練控制治理：壓力下的有界自主訓練以達穩定與效率
Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

May 18

ByAnis Radianis

現代語言模型訓練日益面臨不穩定性、訓練品質下降以及算力浪費等問題，尤其是在激進的學習率設定、模型規模擴增與運行壓力環境下。本文提出「有線自主訓練護航機制」（Learn-by-Wire Guard, LBW-Guard），這是一個在 AdamW 之上運作、具備邊界限制的自動訓練控制治理層。LBW-Guard 不取代優化器的更新規則，而是透過觀測訓練過程的遙測數據，辨識對不穩定性敏感的狀態區域，並在維持固定訓練目標的前提下，對優化器的執行施加邊界限制的控制。我們以 Qwen2.5 為核心，在 WikiText-103 資料集上建立壓力與穩健性測試套件，進行 LBW-Guard 的評估。評估架構以 Qwen2.5-7B 作為實證基準，包含與 Qwen2.5-3B 及 Qwen2.5-14B 的模型規模比較、學習率壓力測試、梯度裁剪基線比較，以及無 LoRA 的 TinyLlama-1B 全參數完整性驗證。在 7B 參考設定中，LBW-Guard 將最終困惑度從 13.21 降至 10.74，改善幅度達 18.7%，同時將端到端訓練時間從 392.54 秒縮短至 357.02 秒，加速比為 1.10 倍。在更強的學習率壓力下，AdamW 在 LR=3e-3 時的最終困惑度退化至 1885.24，在 LR=1e-3 時為 659.76；而 LBW-Guard 則分別在 11.57 與 10.33 的困惑度下維持可訓練性。梯度裁剪基線無法重現此效果。這些結果支持一個具範圍限制的系統性結論：對不穩定性敏感的 LLM 訓練，可受惠於在優化器之上設置一層治理平面。LBW-Guard 提供了證據，證明具邊界限制的運行時控制，能在壓力下保留有效算力，同時與優化器取代及局部梯度抑制等方法保持明確區隔。

TIDE：基於I/O感知專家卸載的高效無損MoE擴散LLM推理
TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload

May 19

ByZhiben Chen, Youpeng Zhao, Yang Sui, Jun Wang, Yuzhang Shang

扩散大语言模型（dLLMs）已成为自回归（AR）模型的有力替代方案，通过并行块级解码实现了更优的硬件利用率与双向上下文建模。然而，随着dLLMs采用混合专家（MoE）架构不断扩展规模，其在资源受限设备上的部署仍是一项开放挑战。现有基于AR的方法要么带来巨大的I/O开销，要么造成显著的计算瓶颈。本文提出TIDE——一种新型资源高效推理系统，其核心创新在于利用专家激活在块内扩散过程中的时间稳定性。具体而言，我们基于块内扩散过程中专家激活的时间稳定性，提出一种基于时间间隔的专家刷新策略，能以I/O感知方式更新专家布局。为确保最优性能，我们将推理调度建模为数学规划问题，求解最小化I/O流量与CPU计算量的最优时间间隔。最重要的是，TIDE是一种无需模型训练的无损优化方案，为dLLM推理提供了"免费午餐"式加速。在单一GPU-CPU系统中，我们证明TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上相较于先前基线分别实现了最高1.4倍和1.5倍的吞吐量提升。

iTryOn：以空間-語義引導掌握互動式視頻虛擬試穿
iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

May 20

ByJun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang

影片虛擬試穿（VVT）旨在將影片中人物身上的衣物無縫替換為新衣物。儘管現有方法在維持時間一致性方面取得顯著進展，但它們主要局限於非互動場景，即模特僅展示衣物。此限制忽略了現實服裝展示中的一個關鍵面向：人與衣物的主動互動。為填補此缺口，我們提出並正式定義一項具挑戰性的新任務：互動式影片虛擬試穿（Interactive VVT），其中影片中的主體會主動與其衣物互動。此任務引入了超越單純紋理保留的獨特挑戰，包括：（1）從標準姿態資訊中解決互動的語意模糊性，以及（2）從互動時刻稀疏且短暫的影片中學習複雜的衣物變形。為應對這些挑戰，我們提出 iTryOn，一個基於大型影片擴散 Transformer 的新穎框架。iTryOn 首創多層級互動注入機制，以引導複雜動態的生成。在空間層級，我們引入與衣物無關的 3D 手部先驗，為精確的手部-衣物接觸提供細粒度引導，有效解決空間模糊性。在語意層級，iTryOn 利用全局描述提供整體上下文，並利用時間標記動作描述提供局部互動，透過我們新穎的動作感知旋轉位置嵌入（A-RoPE）進行同步。大量實驗證明，iTryOn 不僅在傳統 VVT 基準上達到最先進性能，也在新的互動設置中建立領先優勢，標誌著朝向更動態且可控的虛擬試穿體驗邁出重要一步。

重新思考大型视觉语言模型中胸部X光推理的视觉归因
Rethinking Visual Attribution for Chest X-ray Reasoning in Large Vision Language Models

May 19

ByGuangzhi Xiong, Qiao Jin, Sanchit Sinha, Zhiyong Lu, Aidong Zhang

大型視覺語言模型（LVLMs）在醫學應用中展現潛力，但它們無法忠實地將回應基於視覺證據，這引發了對臨床可信度的嚴重擔憂。雖然視覺歸因方法被廣泛用於解釋LVLM的預測，但這些解釋是否確實反映模型決策背後的視覺證據，在很大程度上未經證實，因為內部模型推理的真實標註通常無法獲得。我們針對胸部X光（CXR）推理解決這個問題，開發了一個因果評估框架，該框架僅保留那些經由反事實編輯驗證、專家標註區域對模型預測具有因果責任的CXR-VQA樣本。使用此框架評估11種歸因方法、六個開源LVLMs以及兩種輸出模式（直接回答與逐步推理），我們發現現有歸因方法往往無法識別LVLMs所使用的證據。為了解決這個問題，我們提出MedFocus，一種基於概念的歸因方法，通過不平衡最優傳輸定位臨床上有意義的解剖區域，並通過有針對性的干預測量它們對模型輸出的因果效應。MedFocus產生空間、概念層級及詞元層級的歸因，且顯著優於先前的方法，為醫學LVLMs邁向更可信的歸因邁出一步。我們的數據與程式碼可於 https://github.com/gzxiong/medfocus/ 取得。

DrawMotion：通過手繪生成三維人體動作
DrawMotion: Generating 3D Human Motions by Freehand Drawing

May 20

ByTao Wang, Lei Jin, Zhihua Wu, Qiaozhi He, Jiaming Chu, Yu Cheng, Junliang Xing, Jian Zhao, Shuicheng Yan, Li Wang

文本到動作生成技術，旨在將文字描述轉化為人體動作，但面臨使用者常難以僅透過文字精確傳達意圖動作的挑戰。為解決此問題，本文提出 DrawMotion，這是一個專為多條件場景設計的高效擴散式框架。DrawMotion 可同時依據傳統文字條件與新穎的手繪條件生成動作，分別提供對生成動作的語義控制與空間控制。具體而言，我們從三個角度處理細粒度動作生成任務：1) 徒手繪製條件。為準確捕捉使用者意圖動作，無需繁瑣的文字輸入，我們開發一套演算法，能自動在不同資料集格式下生成徒手繪製的火柴人草圖；2) 多條件融合。我們提出融入擴散過程的多條件模組（MCM），使模型能利用所有可能的條件組合，同時相比傳統方法降低計算複雜度；3) 免訓練引導。值得注意的是，DrawMotion 中的 MCM 確保其中間特徵處於連續空間，使得分類器引導梯度能更新這些特徵，從而在維持真實性的同時，使生成動作與使用者意圖對齊。量化實驗與使用者研究顯示，徒手繪製方法在生成符合使用者想像的動作時，可減少約 46.7% 的使用時間。程式碼、展示影片及相關資料均已公開於 https://github.com/InvertedForest/DrawMotion。

透過證據校準的查詢聚類捕捉LLM能力
Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

May 16

ByFangzhou Wu, Sandeep Silwal, Qiuyi Zhang

查詢聚類將查詢分組為反映共享潛在能力需求的群組，從而實現具備能力感知的大語言模型評估。現有聚類方法主要依賴於語義分類或嵌入表示，但由於表面語義與實際模型效能之間的錯位，往往無法捕捉此類潛在能力需求。我們提出ECC演算法，該演算法利用有限後驗模型比較來校正先驗語義嵌入，從而彌合表面語義與潛在能力需求之間的鴻溝。ECC通過布萊德利-特里模型參數化的能力輪廓表徵每個聚類，並利用可訓練的混合權重來適應具有混合能力需求的查詢，共同學習一種靈活且具備能力感知的聚類結構，以支持針對特定查詢的大語言模型能力推斷。大量定量與定性評估顯示，ECC顯著提升了大語言模型能力排序的品質，分別比人工標註和基於嵌入的基準方法平均高出17.64和18.02個百分點，且在查詢路由等下游任務中展現出有效性。

迷失於摺疊之中：當交叉驗證不再是深度集成的不確定性估計
Lost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation

May 18

ByKirscher Tristan, Bujotzek Markus, Kirchhoff Yannick, Rokuss Maximilian, Isensee Fabian, Kahl Kim-Celine, Kovacs Balint, Maier-Hein Klaus

集成不一致性被广泛用作医学图像分割中认知不确定性的代理指标。实践中，许多研究通过K折交叉验证形成集成，却将其称为"深度集成"。由于交叉验证成员在不同数据子集上训练，它们的不一致性混合了种子驱动变异性和数据暴露效应，这会改变对不确定性的解读方式。我们审核了近期分割不确定性研究，发现术语与实现之间的不匹配现象普遍存在。随后，我们在三个涵盖三种模态的多评分者分割数据集上，以其他配置完全相同的条件下，比较了标准5折交叉验证集成与5成员深度集成（固定训练集、不同随机种子）的表现。我们从校准、故障检测、模糊性建模及分布偏移下的鲁棒性四个维度评估不确定性。深度集成在保持分割精度的同时提升了校准与故障检测性能，而交叉验证集成在特定数据集上与评分者间变异性呈现更强的相关性。因此，集成构建方法应与研究问题相匹配：深度集成适用于可靠性导向场景（如选择性转诊/故障检测），交叉验证集成则可作为模糊性的代理指标。我们提供了轻量级nnU-Net修改方案，使其能在默认流程中支持深度集成训练。

DynMuon：渺子的動態光譜塑形視角
DynMuon: A Dynamic Spectral Shaping View of Muon

May 16

ByFangzhou Wu, Rikhav Shah, Sandeep Silwal, Qiuyi Zhang

近年來，Muon已成為訓練大型語言模型及更廣泛Transformer架構的主導方法。與標準梯度下降法相比，其核心差異在於將傳統更新矩陣 \( M = U\Sigma V^\top \) 替換為其極因子 \( UV^\top \)。在本研究中，我們考慮一類類似Muon的更新方式：將更新矩陣 \( M \) 替換為 \( U\Sigma^p V^\top \)，其中 \( p \) 為可調參數。我們將此操作稱為「譜整形」，並發展了一套理論來選擇 \( p \) 值，其選取依據包含：(a) 損失函數的局部曲率、(b) 隨機梯度與標籤雜訊所導致的雜訊，以及 (c) 訓練階段。我們的理論分析與實驗揭示了一個先前被忽略的行為：正的 \( p \) 值在訓練早期有助於強調高曲率方向並加速訊號收斂，而輕微負的 \( p \) 值則在訓練後期有助於將更新強度重新分配至仍含有用訓練訊號的低曲率方向。基於此洞見，我們提出了DynMuon，一種高效的動態譜整形方法，可在訓練過程中將 \( p \) 由正值調整至輕微負值。橫跨不同模型規模、架構與訓練設定的廣泛實驗顯示，DynMuon在達到相同目標損失時，不僅持續取得比Muon更低的驗證損失，所需訓練步數更減少了10.6%至26.5%。

通過字節級模擬解耦子詞分詞對語言模型訓練的益處
Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

May 14

ByThéo Gigant, Bowen Peng, Jeffrey Quesnelle

子词分词是现代大型语言模型（LLMs）的重要组成部分，但其对训练效率和模型性能的具体贡献仍未被充分理解。在本研究中，我们通过将子词分词的影响隔离在受控的字节级预训练流程中，从而解耦其作用。我们从样本吞吐量、词汇规模扩展以及子词边界的语言先验等多个维度制定并检验假设。通过在字节级设置中模拟这些效应，我们更深入地理解了子词模型为何优于原始字节模型，并为改进未来字节级和子词模型的预训练提供了见解。具体而言，我们的实验凸显了提高训练吞吐量以及将子词边界作为显式先验或归纳偏置进行整合的关键作用。