HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

25 papers found

SkillOpt：自我進化型代理技能的執行策略
SkillOpt: Executive Strategy for Self-Evolving Agent Skills

May 22

ByYifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo

153

當前的代理技能（Agent skills）多為手工構建、一次性生成，或透過鬆散控制的自我修正進行演化。這些方法皆未表現出類似深度學習優化器針對技能進行優化的特性，也無法在回饋下可靠地從起點持續改進。我們主張技能應被訓練為凍結代理（frozen agent）的外部狀態，並遵循與權重空間優化（weight-space optimization）同等嚴謹的紀律。據我們所知，SkillOpt 是首個針對代理技能的系統性可控文本空間優化器：一個獨立的優化器模型將評分後的執行軌跡（scored rollouts）轉換為對單一技能文件的有限添加/刪除/替換編輯（bounded add/delete/replace edits），且僅當編輯能嚴格提升保留驗證集（held-out validation）分數時才予以接受。文本學習率預算（textual learning-rate budget）、拒絕編輯緩衝區（rejected-edit buffer）以及逐輪次的慢速/元更新（epoch-wise slow/meta update）使得技能訓練穩定，同時在部署時不增加任何推理時的模型調用。在六個基準測試、七個目標模型以及三個執行框架（直接對話、Codex、Claude Code）中，SkillOpt 在全部 52 個評估（模型、基準、框架）單元中表現最佳或持平，並在所有單元中擊敗了包括人類、一次性 LLM、Trace2Skill、TextGrad、GEPA 及 EvoSkill 技能在內的每一個競爭者。在 GPT-5.5 上，它將直接對話中的無技能平均準確率提升了 23.5 個百分點，在 Codex 代理循環（Codex agentic loop）內提升了 24.8 個百分點，在 Claude Code 中提升了 19.1 個百分點。遷移實驗進一步顯示，優化後的技能工件（skill artifacts）在跨模型規模遷移、在 Codex 與 Claude Code 執行環境間遷移，以及遷移至鄰近數學基準測試而無需進一步優化時，仍能保持其價值。

重新思考擴散Transformer中的跨層資訊路由
Rethinking Cross-Layer Information Routing in Diffusion Transformers

May 20

ByChao Xu, Maohua Li, Qirui Li, Yixuan Xu, Yanke Zhou, Yunhe Li, Cuifeng Shen, Hanlin Tang, Kan Liu, Tao Lan, Lin Qu, Shao-Qun Zhang

扩散Transformer已成为现代视觉生成的事实标准骨干网络，其设计的几乎每个主要方面——分词、注意力机制、条件机制、目标函数和潜在自编码器——都已被广泛重新审视。然而，负责信息跨层累积的残差流却直接继承自原始Transformer。本文通过系统性的实证分析，沿着深度与去噪时间步两个维度剖析DiT中的跨层信息流动，并识别出传统残差加法的三个具体症状：单调前向幅度膨胀、剧烈反向梯度衰减以及显著的逐块冗余。基于这一诊断，我们提出扩散自适应路由（DAR）——一种即插即用的残差替代方案，可对子层输出的历史信息执行可学习、时间步自适应且非增量的聚合。此外，所提出的DAR与REPA等众多现代Transformer增强方法兼容。在ImageNet 256×256上，DAR使SiT-XL/2的FID提升2.11（7.56对比9.67），并以8.75倍更少的训练迭代达到基线模型的收敛质量。叠加在REPA之上，DAR可在训练早期实现2倍加速，这表明跨层信息路由是扩散建模中一个尚未被充分探索的设计维度，且与现有的表示对齐目标正交。除预训练外，DAR还可应用于大规模文生图模型的微调阶段，并在分布匹配蒸馏过程中保留高频细节。

透鏡：重新思考基礎文字到圖像模型的訓練效率
Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

May 20

ByDong Chen, Fangyun Wei, Ziyu Wan, Dongdong Chen, Jiawei Zhang, Jinjing Zhao, Sirui Zhang, Yang Yue, Zhiyang Liang, Baining Guo, Chong Luo, Jianmin Bao, Ji Li, Lei Shi, Qinhong Yang, Xiuyu Wu, Xuelu Feng, Yan Lu, Yanchen Dong, Yitong Wang, Yunuo Chen

我們推出Lens，一個擁有3.8B參數的T2I模型，其性能在多項基準測試中可與參數超過6B的頂尖模型匹敵，甚至在某些方面超越它們，同時所需訓練計算量大幅減少。例如，Lens僅需約Z-Image訓練計算量的19.3%。Lens的訓練效率除了來自其緊湊的模型規模外，更源於兩項關鍵策略。首先，我們最大化每個訓練批次中的數據資訊密度，具體做法包括：(i) 在Lens-800M數據集上進行訓練——該數據集包含8億對密集標題的圖像-文本對，標題由GPT-4.1生成，平均約109個單詞，相較於傳統的簡短標題，能提供更豐富的語義監督；(ii) 每個批次由多種解析度和多樣寬高比的圖像構成，從而擴大每個優化步驟的有效視覺覆蓋範圍。其次，我們透過精心設計的架構選擇來提升收斂速度，包括採用能提供更佳潛在表示的語義VAE，以及使用強大的語言編碼器——它在加速優化的同時，還能從僅含英文的訓練數據中實現多語言泛化。在預訓練之後，我們應用帶有分類學驅動提示（Lens-RL-8K）的強化學習與結構化獎勵評分標準，以抑制偽影並提升視覺品質；搭配無需訓練的系統提示搜尋推理器模組，以更好地將用戶請求與模型對齊；以及基於蒸餾的加速技術，實現4步推理。透過高效的訓練與系統化優化，Lens能夠泛化至1:2到2:1的任意寬高比，以及最高1440^2的解析度，並支援多種常用語言的提示。得益於其緊湊的規模，Lens在單張NVIDIA H100 GPU上生成一張1024^2的圖像只需3.15秒，而其蒸餾後的Turbo版本則可在0.84秒內完成4步生成。

SciAtlas：一個用於自動化科學研究的大規模知識圖譜
SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

May 20

ByShuofei Qiao, Yunxiang Wei, Jiazheng Fan, Bin Wu, Busheng Zhang, Mengru Wang, Yuqi Zhu, Ningyu Zhang, Keyan Ding, Qiang Zhang, Huajun Chen

全球學術產出的指數級增長，使研究人員與AI代理面臨前所未有的「資訊爆炸」，碎片化且缺乏結構的知識組織方式阻礙了深層跨學科整合。目前的學術檢索工具主要依賴於淺層關鍵詞匹配或向量空間語義檢索，缺乏導航複雜邏輯關聯所需的拓撲推理能力。基於代理的深度研究框架往往容易產生邏輯幻覺且消耗高昂的推理成本。為填補此缺口，本報告介紹SciAtlas——一個大規模、跨學科、異質學術資源的知識圖譜，設計為全景式的科學演化網絡。通過整合來自26個學科的4300萬篇論文，總計1.57億個實體與30億個三元組，SciAtlas提供了結構化的拓撲認知基礎，打破學科壁壘，為AI代理提供全球視角。此外，我們開發了一種神經符號檢索演算法，結合三路協同召回與圖重排序，實現從簡單語義匹配到確定性關聯發現的無縫過渡。我們也展示了SciAtlas的關鍵應用方向，包括文獻綜述、自動化研究趨勢綜合、觀點定位與學術軌跡探索，以證明SciAtlas能夠作為有效的「認知地圖」，賦能自動化科學研究的完整循環，同時顯著降低推理成本。我們已在GitHub倉庫中釋出KG檢索及各類下游任務的介面。

StepAudio 2.5 技術報告
StepAudio 2.5 Technical Report

May 22

ByBin Lin, Bo Zhao, Boyong Wu, Chao Yan, Chen Wu, Cheng Yi, Chengyuan Yao, Daijiao Liu, Fei Tian, Feng Tian, Haiyang Sun, Haoyang Zhang, Jiangjie Zhen, Jinglan Gong, Jun Chen, Li Xie, Peilin Li, Peng Yang, Pengfei Tan, Qingjian Lin, Runze Li, Shenghua Hu, Siyi Zhou, Wenwen Qu, Xiangyu Li, Xiangyu Tony Zhang, Xuerui Yang, Yang Yang, Yechang Huang, Yu Fu, Yuchu Luo, Yuxin Li, Yuxin Zhang, Zhengyan Sheng, Brian Li, Chang Zeng, Changlin Zhang, Chen Geng, Chenghao Dong, Chengli Feng, Dan Zhou, Danni Wan, Di Chen, Die Zhang, Dongqing Pang, Guanglong Yang, Guoqiang Hu, Huangxi Zhu, Jianzheng Gao, Jinghua Liang, Jinmei Wan, Junjie Yuan, Kang An, Lei Lei, Limin Zhong, Lun Cai, Mengqiang Ren, Min Xu, Mingliang Li, Mingxiao Li, Na Wang, Qiang Tong, Qiaoling Huang, Qingfu Du, Rui Wang, Shengchen Zhou, Shi Qiu, Shihao Peng, Shiliang Yang, Siqi Tu, Tianjiao Deng, Ting Xu, Tong Wang, WeiMing Niu, Wuxun Xie, Xianwei Zhang, Xianyu Feng, Xiaojia Liu, Xing Chen, Xiongbin Wu, Yan Wu, Yang Li, Yi Liu, Yifan Zhang, Yile Liu, Yongshen Long, Yu Luo, Yuanhao Ding, Yuhao Wang, Yuhe Yin, Yunfang Xu, Yuxiang Yang, Zhiguo Huang, Zhiyue Wu, Zichao Li, Zichao Zhou, Daxin Jiang, Future Li, Gang Yu, Xiangyu Zhang, Yibo Zhu

统一音频-语言建模已成为现代语音系统的主流趋势，有望将大语言模型的推理能力拓展至听觉任务。然而，现有统一基础模型在自动语音识别（ASR）、文本到语音合成（TTS）及实时口语交互中，往往难以达到专用系统的深度。弥合这一差距仍是开放挑战。本报告介绍StepAudio 2.5，这是一款在全部三项能力上达到或超越专用系统的统一音频-语言基础模型。我们并未将上述任务视为架构上彼此独立，而是基于以下前提：一旦文本与音频共享多模态表征空间，任务专业化便成为操作模式问题——即数据构建、优化目标和解码约束的差异。在此洞察指导下，我们将后训练范式从标准监督学习推进至面向任务的基于人类反馈的强化学习（RLHF），并将其作为定义复杂优化目标的主要机制。我们利用以RLHF为核心的对齐方法，结合专用解码策略，将共享骨干网络塑造为三种不同的操作模式。具体而言：ASR分支通过可验证的多令牌解码提升转录效率；TTS分支通过基于偏好的RLHF和富含上下文的监督实现可控且富有表现力的合成；实时分支则借助RLHF框架内的生成式奖励建模实现低延迟、保持人格一致性的对话。在标准基准测试中，StepAudio 2.5在ASR、TTS和实时交互任务上均取得了最先进的结果，证明单一音频-语言基础模型能够成功内化语音理解、生成与实时交互各自迥异的部署目标。

看見我所指：對齊視覺與語言表徵以實現影片細粒度物體理解
See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

May 18

ByBoyuan Sun, Bowen Yin, Yuanming Li, Xihan Wei, Qibin Hou

我們提出 SWIM (See What I Mean)，這是一種新穎的訓練策略，能夠對齊視覺與語言表徵，僅透過文字提示即可實現細粒度的物體理解。不同於現有方法需要明確的視覺提示（如遮罩或點），SWIM 僅在訓練期間利用遮罩監督來引導跨模態注意力，使模型在推論時能自動關注使用者指定的物體。我們對預訓練多模態大語言模型 (MLLMs) 的跨注意力分析揭示了一個系統性的偏差：屬性詞在視覺模態中產生尖銳且局部的活化，而物體名詞則因語義參照偏差與分佈式高層表徵，呈現擴散且零散的模式。為了解決這種錯位，我們建構了 NL-Refer 這個擴充資料集，其中每個物體遮罩都與精確的自然語言指代表達配對。SWIM 從物體名詞中提取多層跨注意力圖，並強制其與真實遮罩具有空間一致性。實驗結果顯示，SWIM 顯著改善了文字與視覺的對齊，並在細粒度物體理解基準上超越以視覺提示為基礎的方法，達到更優異的表現。程式碼與資料請見 https://github.com/HumanMLLM/SWIM。

從原始經驗到技能消費：模型生成代理技能的系統研究
From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

May 22

ByZisu Huang, Jingwen Xu, Yifan Yang, Ziyang Gong, Qihao Yang, Muzhao Tian, Xiaohua Wang, Changze Lv, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Xue Yang, Dongdong Chen, Xiaoqing Zheng, Chong Luo

語言代理越來越依賴於重複使用技能——即從過往經驗中提煉出的結構化程序化產物。特別是領域層級與模型生成的技能尤其具有前景：它們透過編碼特定領域的重複性程序，實現快速適應，且能擴展至超越耗時的人工構建。然而，儘管提取方法持續增加，我們對其理解仍相當有限，缺乏涵蓋完整技能生命週期（經驗生成、技能提取、技能消費）的全面研究，來探討這些技能是否真正有效、何時有效，以及成功或失敗的原因。為填補這項缺口，我們建立了一個以實用性為基礎的評估框架，在五個多樣化的代理任務領域中，提供跨提取器與目標代理的系統性實驗結果。我們發現，模型生成的技能平均而言是有益的，但存在顯著的負遷移現象，且無論提取器或目標代理的行為均非一致。一個模型可能成為強大的提取器卻同時是弱勢的消費者，反之亦然；技能的實用性與模型規模或基準任務強度並無關聯。為解釋這些模式，我們接著深入剖析生命週期的每個階段，分析經驗組成如何塑造技能品質、哪些特性定義了有用的技能，以及同一技能如何在不同消費者之間轉移。最後，我們將這些發現轉化為具體的後設技能，引導技能提取朝向與實際效用相關的特徵，在不同領域中持續提升技能品質，並大幅減少負遷移。

PiD：利用像素擴散的快速高解析度潛在解碼
PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion

May 22

ByYifan Lu, Qi Wu, Jay Zhangjie Wu, Zian Wang, Huan Ling, Sanja Fidler, Xuanchi Ren

目前大多數實用的高解析度文字轉圖像系統（包括潛在擴散模型與自回歸模型）均在緊湊的潛在空間中進行生成，並透過解碼器將產生的潛在特徵映射回像素。然而，這種潛在-像素解碼器本質上是以重建為導向，其最佳化目標在於逆轉編碼器，而非合成更多細節，且在高百萬像素尺度下成本日益攀升。此缺陷促使我們需要更具表現力且更高效的解碼機制。受近期可擴展像素空間擴散模型進展的啟發，我們提出PiD（Pixel diffusion Decoder），將潛在解碼重新定義為條件式像素擴散，從而將解碼與上採樣整合為單一生成模組。透過直接在高效解析度像素空間中進行去噪，PiD能以低延遲合成放大4倍甚至8倍的影像。在潛在條件處理方面，輕量級的sigma感知適配器將受噪聲干擾的潛在特徵注入像素擴散主幹，使PiD能夠解碼部分去噪的潛在特徵，並提前終止潛在擴散過程。為進一步提升效率，我們利用DMD2對模型進行蒸餾，將推論步驟縮減至僅4步。PiD可應用於傳統VAE潛在特徵，以及近期基於RAE模型所使用的語義潛在特徵（如SigLIP、DINOv2）。在消費級RTX 5090顯示卡上，PiD可於1秒內將512×512影像的潛在特徵解碼為2048×2048像素，峰值記憶體僅13 GB；在GB200 GPU上更可快至210毫秒，速度約為串聯式擴散超解析度管線的6倍，同時具備更佳的視覺保真度。

PhotoFlow: 自主式3D虛擬攝影任務
PhotoFlow: Agentic 3D Virtual Photography Missions

May 22

ByJiarui Guo, Haojia Wei, Yiming Zhang, Yifei Liu, Yuning Gong, Hongjie Zhang, Xue Yang, Zhihang Zhong

虛擬攝影要求智能體進入一個預先準備好的三維場景，在沒有預設相機姿態或參考圖像的情況下，從場景資訊與語言意圖推斷出合適的構圖，選擇可執行的相機參數，並渲染出最終照片。近年來視覺-語言模型的進展，讓這類空間智能體變得越來越可行，但該任務同時考驗兩種難以共同評估的能力：複雜的三維空間理解與抽象的美學判斷。我們提出PhotoFlow，一個具備導演-评审-反思機制的閉環相機搜尋智能體。導演模組建構軟性攝影藍圖並提出多樣化的候選相機；评审模組結合規則檢查、視覺評論與成對當前最優選擇；反思模組則將失敗轉化為區域記憶、死區抑制與高探索重新定位。我們同時推出VPhotoBench，一個包含47個開放授權Blender場景與141項語言條件攝影任務的評測基準，涵蓋主體擺放、關係構圖與氛圍/風格。在保留測試中，PhotoFlow在六輪渲染預算下，於一次性預測、單鏈反思、錨點庫選擇與隨機搜尋等方法中，取得了最強的外部品質-一致性複合指標與成功率。據我們所知，這是首項將任意Blender場景中的語言條件虛擬攝影轉化為可執行智能體任務的研究，而我們的結果顯示，以大型語言模型為核心的空間智能體，在一個同時挑戰三維推理與美學選擇的設定下，已能產出優質照片。

VGenST-Bench：透過主動影片合成進行時空推理的基準
VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis

May 21

ByJinho Park, Youbin Kim, Hogun Park, Eunbyung Park

時空推理是運行於現實世界中的多模態大型語言模型（MLLMs）一項核心能力。因此，精確評估此能力已成為一項關鍵挑戰。然而，現有的時空推理基準資料集主要依賴靜態影像集或被動彙整的影片資料，限制了對細粒度推理能力的評估。在本文中，我們提出 VGenST-Bench，這是一個利用生成模型主動合成高度可控且多樣化評估場景的影片基準。為建構 VGenST-Bench，我們提出一個包含人工品質控制階段的多智能體流程，確保所有生成影片及問答對的品質。我們建立了一個全面的 3×2×2 影片分類體系，涵蓋空間尺度、視角與場景動態，以覆蓋多樣化場景。此外，我們設計了一套層次化任務套件，將低層次視覺感知與高層次時空推理分離開來。透過將範式從被動彙整轉變為主動合成，VGenST-Bench 得以對 MLLMs 的時空理解進行細粒度診斷。

RankE：具解碼器共同演化之端到端後訓練離散文字到圖像生成
RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution

May 20

BySiyong Jian, Siyuan Li, Luyuan Zhang, Zedong Wang, Xin Jin, Ying Li, Cheng Tan, Huan Wang

离散自回归（AR）文本到图像（T2I）模型将VQ分词器与AR策略配对，当前的后训练管线仅优化策略而冻结VQ解码器。近期以REPA-E为代表的扩散T2I研究表明，VAE本身构成关键的对齐瓶颈，然而离散AR模型中尚无类似研究。我们发现，仅优化策略会引发潜在协变量偏移：随着策略演化，所生成的标记分布偏离了解码器训练时所用的真实分布，导致奖励分数提升而解码图像质量下降。为解决这一不匹配问题，我们提出RankE——首个用于离散T2I生成的端到端后训练框架。RankE并非在固定解码器下优化策略，而是通过交替优化让两个模块协同演进：每个模块在最大化基于排名的对齐目标的同时，受其参数空间内保持稳定性的锚点正则化。这种协同演进打破了困扰冻结解码器方法的质量-对齐权衡：在LlamaGen-XL（775M）上，标准RL提升了CLIP但恶化了FID，而RankE同时改善了二者（在MS-COCO 30K上，FID 15.21，CLIP 33.76）。在Janus-Pro（1B）上的一致增益证实，解码器协同演进能够可靠地将奖励优化转化为像素级的质量提升。

ETCHR：編輯以澄清與駕馭推理
ETCHR: Editing To Clarify and Harness Reasoning

May 22

ByBeichen Zhang, Yuhong Liu, Jinsong Li, Yuhang Zang, Jiaqi Wang, Dahua Lin

多模態大型語言模型雖已推進視覺推理能力，但對於需要精細聚焦或視角轉換的問題，純文字思維鏈仍構成瓶頸。「以圖像思考」的範式縮小了這一差距，然而現有方法若非受限於固定預設工具集，便是透過統一多模態方法產生含有雜訊的中間影像。我們探索第三種路徑：採用專用影像編輯模型，並將其與理解模型解耦。然而，現成的影像編輯器作為推理輔助工具存在兩個互補缺口：語言端的缺口——被訓練為被動指令跟隨者的編輯器無法將抽象問題對應至適當的視覺轉換；生成端的缺口——隨著推理深度增加，編輯正確性逐漸下降。在此分析指引下，我們提出ETCHR（以編輯釐清理路並強化推理），這是一個問題條件化、推理感知的影像編輯器，與下游理解模型解耦，並採用兩階段訓練策略鎖定前述缺口：先透過編輯軌跡上的監督式微調進行推理模仿，再結合VLM導出的獎勵（針對編輯正確性與下游推理準確度）進行推理強化。由於編輯器已解耦，ETCHR能以無需訓練的方式整合至不同的開源與閉源MLLM中。在五大任務族（細粒度感知、圖表理解、邏輯推理、拼圖重構、3D理解）中，ETCHR將Qwen3-VL-8B的平均Pass@1從55.95提升至60.77（+4.82），Gemini-3.1-Flash-Lite從65.08提升至70.55（+5.47），以及參數量達1T的MoE模型Kimi K2.5從76.55提升至81.16（+4.61）。

SCOPE：在可玩環境中模擬跨遊戲操作以建構FPS世界模型
SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models

May 22

ByZizhao Tong, Hongfeng Lai, Zeqing Wang, Zhaohu Xing, Kexu Cheng, Haoran Xu, Zhao Pu, Shangwen Zhu, Ruili Feng, Jian Zhao, Yan Zhang, Hao Tang, Yeying Jin, Ling Shao

針對第一人稱射擊（FPS）遊戲的互動式世界模型，必須在每一幀中解決高頻重疊控制訊號，同時不影響未受干擾的區域。現有方法將動作全域注入並在單一遊戲上訓練，因此在密集的FPS輸入下表現不佳。我們觀察到FPS動作具有空間選擇性：諸如開火或換彈等離散事件僅影響武器周圍的局部區域（即「瞄準範圍」），而連續的攝影機與移動訊號則控制穩定的周遭環境。我們提出SCOPE，該方法在預訓練影片擴散模型的每個Transformer區塊中插入條件調節模組，將特徵重塑為逐畫素的時間序列，使每個位置能根據局部視覺內容計算其動作響應。此方式無需分割標籤即可分離「範圍內」效果與「範圍外」生成。我們亦引入CrossFPS，這是首個具備幀對齊動作遙測資料的多遊戲FPS數據集，包含來自7款遊戲的69K片段與10自由度控制器訊號，並經過策劃以消除遊戲玩法偏差。該模型學習通用的視覺-動作映射，而非特定遊戲的模式，從而實現對未見過場景的零樣本遷移。實驗證實了其強大的動作響應能力、精確的範圍分離效果以及有效的跨遊戲泛化能力。

LLM作為雜訊通道：從香農觀點看模型容量與尺度定律
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

May 22

ByXu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma

現有的大型語言模型（LLM）縮放定律，主要是單調冪律，無法解釋新出現的非單調現象，例如災難性過度訓練與量化導致的退化——在增加運算量的情況下，模型性能反而惡化。我們提出香農縮放定律（Shannon Scaling Law），這是一個統一的理論框架，基於香農-哈特利定理（Shannon-Hartley theorem），將 LLM 訓練建模為雜訊通道中的資訊傳輸。透過將模型參數映射為通道頻寬、訓練 token 映射為訊號功率，我們的公式明確捕捉了學習訊號與內在雜訊之間的交互作用。此視角揭示了 LLM 的香農容量：若在擴展模型規模或資料時未能維持足夠的信噪比（SNR），將不可避免地放大雜訊，導致性能從單調提升轉變為 U 形退化。我們透過在 Pythia 和 OLMo2 上進行干擾實驗（包括高斯雜訊、量化，以及數學、問答和程式碼任務上的監督式微調）驗證了此理論。香農縮放定律持續優於經典縮放定律及近期提出的干擾感知定律，獲得了優異的 R² 分數，並準確捕捉了先前方法未能發現的損失盆地。此外，該定律具備外推能力：在 ≤6.9B 參數的 Pythia 模型上以 ≤180B token 擬合後，可預測未見過的 12B 模型至多 307B token 的表現，匯總 R² 達 0.847，而單調基線法則完全失效。

從看見到思考：解耦感知與推理，提升視覺語言模型的後訓練效果
From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

May 19

ByJuncheng Wu, Hardy Chen, Haoqin Tu, Xianfeng Tang, Freda Shi, Hui Liu, Hanqing Lu, Cihang Xie, Yuyin Zhou

近期视觉-语言模型（VLM）的进展强调长链式思维推理；然而，我们发现其在视觉任务上的表现主要受限于视觉感知能力的不足，而非推理本身。本研究通过将VLM后训练能力分解为三个独立训练阶段——视觉感知、视觉推理与文本推理，并引入专门训练数据，系统探讨了感知与推理在VLM后训练中的相互作用。我们证明：（a）视觉感知需借助专用数据进行针对性优化；（b）视觉感知作为基础框架，应在完善视觉推理前通过分阶段训练加以巩固；（c）相较于基于描述的监督微调，强化学习对视觉感知的训练效果更优。跨多款VLM的实验表明，相较于混合训练，分阶段训练能持续提升视觉感知与推理性能。值得注意的是，采用本方法训练的模型在推理准确率提升1.5%的同时，推理链长度缩短20.8%，表明更优的感知能力可减少对过度推理的依赖。此外，本研究揭示这种基于能力的阶段划分代表了一种与传统基于难度的课程设计正交的新维度，两者结合可产生进一步叠加增益。我们的分阶段训练模型在开源权重VLM中表现卓越，在多项视觉数学与感知任务中相较于基础模型取得领先成果（例如WeMath任务提升5.2%，RealWorldQA任务提升3.7%）。

Geo-Align：基于度量几何奖励的视频生成对齐
Geo-Align: Video Generation Alignment via Metric Geometry Reward

May 22

ByZizun Li, Haoyu Guo, Runzhe Teng, Chunhua Shen, Tong He

近年来，基于相机控制的视频生成技术取得了显著进展。然而，现有的视频到视频重渲染方法主要依赖合成数据集的监督微调。目前，同步多视角真实世界视频数据极度匮乏。因此，现有范式在处理分布外的真实世界视频时往往泛化能力有限，模型难以精确遵循物理尺度与相机轨迹。为解决这一难题，我们提出Geo-Align——首个专为相机控制视频重渲染设计的强化学习框架。基于预训练模型，我们通过一种尺度感知感知奖励机制优化模型。具体而言，我们引入度量3D估计器从生成视频中提取精确相机轨迹，并显式惩罚旋转与平移偏差。此外，我们精心设计了基于真实世界条件视频与源自合成数据的目标相机轨迹的数据流水线策略，彻底消除对配对数据的依赖。大量实验表明，Geo-Align在精确相机可控性与视觉保真度方面持续优于现有监督学习基线，充分验证了本方法的有效性。

重新審視Muon在預訓練之外的應用：VLA與RLVR的頻譜失敗與高通補救措施
Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

May 19

ByChongyu Fan, Gaowen Liu, Mingyi Hong, Ramana Rao Kompella, Sijia Liu

Muon 是一種具矩陣感知能力的優化器，它利用牛頓-舒爾茨 (NS) 迭代，透過將動量矩陣的所有奇異值推向 1，來實現譜梯度正交化。雖然這種均勻的譜白化方法能增強探索能力，並在大型語言模型預訓練中優於 AdamW，但我們指出，它在預訓練之外的兩種場景中可能導致根本性限制：(i) 跨模態視覺-語言-動作 (VLA) 訓練，其中動作模組梯度本質上為低秩，會放大雜訊尾方向；(ii) 可驗證獎勵的強化學習 (RLVR)，其中低信噪比梯度以及需要保留先前訓練中每個注意力頭的專業化特性，使得白化方法不穩定。為了解決這些問題，我們提出 Pion，這是一個可直接替代 Muon 的優化器，它在保留計算效率的同時，將均勻譜白化替換為一個兩階段的「促進+抑制」機制，我們稱之為高通 NS 迭代。此設計會產生尖銳的譜高通效應，將主導奇異值錨定在 1，並將雜訊尾成分抑制向 0，且濾波強度可控。為了保留預訓練後的每個注意力頭異質性，Pion 還支援逐頭模式，透過簡單的形狀重塑，在注意力頭之間獨立應用更新，且不增加額外成本。在 LIBERO 和 LIBERO-Plus 上的 VLA 訓練中，Pion 無論在 l₁ 回歸 (VLA-Adapter) 還是流匹配 (VLANeXt) 架構上，均持續優於兩種基線；例如，在 VLA-Adapter 中，僅需 1,500 訓練步即可在 LIBERO Object 上達到 100% 的成功率，而 Muon 為 97.0%，AdamW 僅為 32.2%。Pion 的優勢進一步延伸至真實的 Franka Research 3 機器人，其在 DROID 設定下搭配 pi_0.5 骨幹，在三個抓取與放置任務中表現優異。在 Qwen3-1.7B/4B 上使用 GRPO 和 GMPO 進行 RLVR 後訓練時，Pion 在 MATH 和 GSM8K 上亦優於 AdamW，而 Muon 則崩潰至零。

GenRecon：橋接生成先驗的多視角三維場景重建
GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

May 22

ByKatharina Schmid, Nicolas von Lützow, Jozef Hladký, Angela Dai, Matthias Nießner

我們提出了一種新方法，用於從多視角RGB影像中進行高保真3D場景重建，該方法將重建與強大的生成式3D先驗緊密結合。我們將場景重建視為對一系列空間局部且重疊的區塊進行條件式3D生成，這些區塊共同覆蓋整個場景，從而將生成規模擴展至大型場景。關鍵在於，我們繼承了最先進生成形狀模型（以Trellis.2為例）的保真度與完整性，並將其推廣至場景層級。為此，我們提出了一種基於投影的條件機制，該機制將帶有姿態的多視角影像特徵提升為與生成模型對齊的連貫3D表示，且不受視角順序影響，並空間錨定於場景，從而產生高保真、多視角一致的生成幾何。這使得我們能將Trellis.2的強物件級先驗提升至多視角場景級生成，產生室內環境的逼真、可編輯PBR網格重建。最終，我們獲得了超越最先進重建方法16%的高保真成果。

LatentUMM：雙重潛在對齊的統一多模態模型
LatentUMM: Dual Latent Alignment for Unified Multimodal Models

May 18

ByYinyi Luo, Wenwen Wang, Hayes Bai, Marios Savvides, Jindong Wang

统一多模态模型（UMMs）通过学习共享潜在空间，在理解和生成任务中均展现出强大性能，然而这两种能力之间往往存在功能不一致的问题。我们观察到，这一问题的根源并非缺乏共享表征，而是由于映射到潜在空间和从潜在空间映射回去的变换之间缺乏显式对齐。这导致生成与再编码过程可能遵循不一致的轨迹，进而在模态转换时出现语义漂移。本文提出LatentUMM框架，通过构建增强的共享潜在空间，显式对齐这些变换以提升跨模态一致性。LatentUMM包含两个阶段：首先，双重视角潜在对齐在模态维度和容量维度上实施一致性约束——跨模态对齐借助更强的嵌入模型施加结构化跨模态语义，而双容量对齐则强制生成与再编码过程保持双向一致性。其次，潜在动态稳定性通过随机潜在轨迹展开和偏好优化提升鲁棒性，优先保留语义一致性更佳的轨迹。实验表明，LatentUMM能显著提升不同架构下的多模态一致性。代码开源地址：https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM

優質令牌尋寶：視覺幾何變換器令牌選擇的 hitchhiker 指南
Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers

May 22

ByShuhong Zheng, Michael Oechsle, Erik Sandström, Marie-Julie Rakotosaona, Federico Tombari, Igor Gilitschenski

视觉几何变换器已成为多视图三维重建的强大架构，能够以前馈方式联合预测多个三维属性。然而，由于这些模型内部的全局注意力层，其计算成本随输入序列长度呈二次方增长，这限制了模型的可扩展性和效率。在本研究中，我们提出一种简单而通用的策略来应对这一挑战：限制全局注意力中每个查询所交互的键/值令牌数量。为了实现有效的令牌选择，我们引入了一个两阶段框架。首先，帧间选择步骤在帧级别操作，识别应保留的帧。随后，帧内选择步骤进一步丢弃所选帧中的冗余令牌。我们的分析凸显了基于多样性的帧间选择策略的优势，该策略确保对场景的广泛覆盖。对于帧内选择，我们证明了分层稀疏化的必要性，选择过程由全局注意力模式的熵值引导。与现有解决方案相比，我们的方法在速度与精度权衡方面表现更优。大量实验表明，在包含500张图像的场景中，该方法可加速视觉几何变换器超过85%，同时保持甚至提升基线性能，这暗示了我们的令牌选择策略在未来视觉几何变换器应用中的关键作用。项目网站详见：https://zsh2000.github.io/good-token-hunting.github.io。

視覺的代價：在整體範式內實現可信的多模態推理
The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm

May 21

ByKaran Goyal

視覺語言模型（VLMs）的迅速普及，常被描述為促成統一多模態知識發現的契機，但這背後隱藏著一個未經充分檢驗的假設：當前 VLM 能夠忠實地整合多模態數據。我們認為情況往往並非如此，而此差距正反映出主流「視覺編碼器－投影器－大型語言模型」典範中的可信度問題。最先進的模型並非從視覺輸入中提取紮根知識，反而經常展現出一種功能性盲區，亦即利用強大的語言先驗知識來繞過嚴重的視覺表徵瓶頸。在本研究中，我們挑戰傳統的多模態評估方法論，該方法依賴於資料消融或創建新資料集，因而將資料集偏差與架構能力不足混為一談。我們提出一個資訊理論層面的新方向：模態翻譯協議，旨在量化我們所謂的「看見的代價」。透過轉譯語義載荷而非將其消融，我們建構了三項新指標——看見的代價（Toll of Seeing, ToS）、看見的詛咒（Curse of Seeing, CoS）與看見的謬誤（Fallacy of Seeing, FoS）——最終形成語義充分性準則（Semantic Sufficiency Criterion, SSC）。此外，我們提出一項多模態規模分歧律假說：當底層語言引擎擴展至前所未見的推理能力時，視覺知識瓶頸的懲罰可能不減反增。我們主張學界應超越以「多模態增益」為主要評估目標。透過將 SSC 從被動的診斷限制提升為主動的架構藍圖，我們為引領下一代 AI 系統邁向真正的多模態推理奠定了基礎。

HINT-SD：面向長期時域智能體的針對性事後自我蒸餾
HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

May 18

ByWoongyeng Yeo, Yumin Choi, Taekyung Ki, Sung Ju Hwang

使用强化学习训练长周期LLM智能体具有挑战性，因为稀疏的结果奖励仅能揭示任务是否成功，却无法表明哪些中间动作导致了该结果，以及应如何纠正这些动作。近年来的方法通过从逐回合的动作-输出信号中生成奖励或文本提示，或者利用反馈条件自蒸馏来缓解这一问题。然而，在大量中间回合已经成功或中性的情况下，每个回合都生成反馈效率低下；而在固定或错位的回合上应用反馈，往往无法监督导致失败的那些动作。为弥合这一差距，我们提出了HINT-SD，一种针对性自蒸馏框架，它利用全轨迹事后分析来选择与失败相关的动作，并仅在目标动作跨度上应用反馈条件蒸馏。在BFCL v3和AppWorld上的实验表明，我们的方法相比密集的逐回合反馈基线，性能提升最高达18.80%，同时每个训练步骤的时间降低2.26倍，这表明选择蒸馏的位置是实现高效且有效的长周期智能体训练的关键因素。

推理的幻象：透過零思維鏈截斷揭露LLM中的隱蔽數據污染
The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation

May 21

ByYifan Lan, Yuanpu Cao, Hanyu Wang, Lu Lin, Jinghui Chen

大型語言模型（LLMs）在廣泛的任務中展現出令人驚嘆的推理能力，但資料污染卻削弱了對這些能力的客觀評估。惡意的模型發布者進一步加劇了此問題，他們採用規避性或間接的污染策略（例如對基準測試資料進行改寫）來躲避現有檢測方法，並人為地提升排行榜表現。現有方法難以可靠地偵測這類隱蔽性的污染。在本研究中，我們揭示了一個關鍵現象：模型生成的推理步驟會主動掩蓋其潛在的記憶化行為。受此啟發，我們提出了「零思維鏈探測器」（Zero-CoT Probe, ZCP），這是一種新穎的黑箱檢測方法，刻意截斷整個思維鏈（Chain-of-Thought, CoT）過程，以暴露潛在的捷徑對應關係。為進一步將記憶化行為與模型內在的問題解決能力分離，ZCP比較了模型在原始基準測試上的零思維鏈表現與在經過同構擾動的參考資料集上的表現。此外，我們引入了「污染可信度」（Contamination Confidence）這一指標，用以量化污染的機率與嚴重程度，超越了單純的二元分類。在先前已被識別為受污染的模型以及經過特別微調的受污染模型上所進行的廣泛實驗表明，ZCP能夠穩健地檢測出直接與規避性的資料污染。ZCP的程式碼可於 https://github.com/Yifan-Lan/zero-cot-probe 取得。

均衡推理器：學習吸引子實現可擴展推理
Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning

May 20

ByBenhao Huang, Zhengyang Geng, Zico Kolter

通過迭代更新潛在狀態來擴展測試時計算，已成為一種強大的推理範式。然而，使這些迭代模型能夠泛化至超越記憶模式的內部機制仍不清楚。我們假設，可泛化的推理源於學習任務條件化的吸引子：一種潛在動力系統，其穩定不動點對應於有效解。我們透過均衡推理器（EqR）將此過程形式化，使其無需外部驗證器或任務特定先驗即可實現測試時擴展。EqR沿兩個維度擴展內部動態：深度，透過運行更多迭代；廣度，透過聚合來自多個初始化的隨機軌跡。經驗上，測試時擴展的收益與向解對齊吸引子的更強收斂緊密相關。這種吸引子視角使神經網路能夠根據任務難度自適應地分配測試時計算。雖然簡單案例在1至5個迭代步驟內收斂，但較難案例則受益於大規模測試時擴展。透過展開多達等效40,000層的網路，可擴展的潛在推理將準確率從前饋模型的2.6%提升至Sudoku-Extreme上的99%以上。這些結果表明，學習到的吸引子景觀為理解迭代潛在模型中的可擴展推理提供了有用的機制視角。

用於自回歸MRI重建的下一加速比例預測
Next-Acceleration-Scale Prediction for Autoregressive MRI Reconstruction

May 21

ByYilmaz Korkmaz, Vishal M. Patel

MRI重建本質上是一個病態逆問題，因為不完整的量測會產生多種可能的解。在高加速倍數下，這種模糊性變得更加嚴重，此時像素域的連續預測器往往會對可行的重建結果進行平均化，並抑制高頻解剖結構。為了解決此限制，我們將重建移至離散多尺度潛在空間，並將其視為自回歸式的下一個加速尺度預測。利用在視覺自回歸建模中已被證實有效的離散先驗知識，我們的方法將解限制為碼本標記的緊湊序列，即使在極稀疏的量測下也能實現清晰的重建。這種離散自回歸的表述方式也自然地與現代大型語言模型的後訓練技術相吻合。基於此觀察，我們引入了針對視覺自回歸建模的同策略特權信息蒸餾，其中教師模型僅使用在推理時無法獲得的特權上下文（在本例中為全採樣採集）進行訓練，並監督學生模型根據其自身的生成序列進行訓練，從而實現一致的重建增益。透過在fastMRI基準測試上的廣泛實驗，我們證明，在極度欠採樣的情況下，我們的方法能在多種採樣模式下提供改進的重建表現。專案網站為：https://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{here}。

StepAudio 2.5 技術報告
StepAudio 2.5 Technical Report

May 22