HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

43 papers found

CiteVQA：針對可信賴文件智能的證據歸因基準評測
CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

May 13

ByDongsheng Ma, Jiayu Li, Zhengren Wang, Yijie Wang, Jiahao Kong, Weijun Zeng, Jutao Xiao, Jie Yang, Wentao Zhang, Bin Wang, Conghui He

161

多模态大型語言模型（MLLMs）在文件理解領域已取得顯著進展，然而現行的Doc-VQA評估僅針對最終答案進行評分，並未檢驗所引用的支持證據。這種僅以答案為導向的評估方式掩蓋了一個關鍵的失敗模式：模型可能基於錯誤段落推導出正確答案——這在法律、金融與醫療等高風險領域中構成重大風險，因為每項結論都必須可追溯至特定來源區域。為解決此問題，我們提出CiteVQA基準測試，要求模型在提供答案的同時，回傳元素層級的邊界框引用（bounding-box citations），並對二者進行聯合評估。CiteVQA涵蓋711份PDF文件中的1,897道問題，橫跨七個領域及兩種語言，每份文件平均長達40.6頁。為確保忠實性與可擴展性，真實引用（ground-truth citations）透過自動化流程生成——該流程利用遮罩消融（masking ablation）識別關鍵證據——並經專家審查驗證。評估核心為「嚴格屬性準確率」（Strict Attributed Accuracy, SAA），僅當答案與引用區域皆正確時才給予分數。針對20個MLLMs的審查揭示了一種普遍存在的「屬性幻覺」（Attribution Hallucination）：模型經常給出正確答案，但所引用的區域卻是錯誤的。最強系統（Gemini-3.1-Pro-Preview）的SAA僅達76.0，而最強的開源MLLM僅達22.5。最終，為實現可信賴的文件智能，CiteVQA揭露了僅以答案為導向評估所忽略的可靠性差距，並提供了填補該差距所需的工具。我們的程式庫位於 https://github.com/opendatalab/CiteVQA。

PhysBrain 1.0 技术报告
PhysBrain 1.0 Technical Report

May 14

ByShijie Lian, Bin Yu, Xiaopeng Lin, Changti Wu, Hang Yuan, Xiaolin Hu, Zhaolong Shen, Yuzhuo Miao, Haishan Liu, Yuxuan Tian, Yukun Shi, Cong Huang, Kai Chen

129

視覺-語言-動作模型已取得快速進展，但僅靠機器人軌跡數據對學習廣泛的物理理解仍提供了有限的覆蓋範圍。PhysBrain 1.0 探索了一條互補的路徑：在機器人適應之前，將大規模的人類第一人稱視角影片轉換為結構化的物理常識監督訊號。我們的數據引擎提取場景元素、空間動態、動作執行及深度感知關係，接著將其轉化為問答形式的監督數據，用於訓練 PhysBrain 視覺語言模型。所得到的物理先驗知識進一步透過一種保留能力且對語言敏感的適應設計，轉移到視覺-語言-動作策略中。在多模態問答基準與具身控制基準（包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 及 RoboCasa）上，PhysBrain 1.0 均達成最佳結果，且在 SimplerEnv 上展現出特別強大的跨領域表現。這些結果表明，從人類互動影片中擴展物理常識，可為多模態理解通向機器人動作提供一條有效的橋樑。

MMSkills：迈向通用视觉智能体的多模态技能
MMSkills: Towards Multimodal Skills for General Visual Agents

May 14

ByKangning Zhang, Shuai Shao, Qingyao Li, Jianghao Lin, Lingyue Fu, Shijian Wang, Wenxiang Jiao, Yuan Lu, Weiwen Liu, Weinan Zhang, Yong Yu

可复用技能已成为提升智能体能力的核心基础，然而现有的大多数技能包主要将可复用行为编码为文本提示、可执行代码或学习到的常规流程。但对于视觉智能体而言，程序性知识本质上是多模态的：复用不仅取决于执行什么操作，还涉及识别相关状态、解读表明进展或失败的视觉证据，以及决定下一步行动。我们将这一需求形式化为多模态程序性知识，并应对三个实际挑战：（一）多模态技能包应包含什么内容；（二）从哪些公共交互经验中可以提取此类技能包；（三）智能体如何在推理阶段参考多模态证据，同时避免过多的图像上下文或过度依赖参考截图。我们提出MMSkills框架，用于表示、生成和使用可复用的多模态程序，以支持运行时视觉决策。每个MMSkill是一个紧凑的状态条件化包，将文本程序与运行时状态卡及多视角关键帧相结合。为了构建这些技能包，我们开发了一个智能体轨迹到技能的生成器，通过工作流分组、过程归纳、视觉定位和元技能引导审核，将公开的非评估轨迹转化为可复用的多模态技能。在使用方面，我们引入了一个分支加载的多模态技能智能体：在临时分支中检查选定的状态卡和关键帧，与实时环境对齐，并提炼为结构化指导供主智能体参考。在基于GUI和游戏的视觉智能体基准测试中，实验结果表明MMSkills能持续提升前沿及较小规模的多模态智能体，提示外部多模态程序性知识可补充模型内部先验知识。

FashionChameleon：邁向即時與互動的人體服裝影片定制
FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization

May 15

ByQuanjian Song, Yefeng Shen, Mengting Chen, Hao Sun, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Liujuan Cao

以人为中心的视频定制，尤其是在服装层面，已展现出显著的商业价值。然而，现有方法无法支持低延迟且可交互的服装控制，而这对于电子商务和内容创作等应用至关重要。本文研究如何仅利用单服装视频数据，在保持动作连贯性的前提下实现交互式多服装视频定制。我们提出FashionChameleon，这是一个用于自回归视频生成中实现实时交互式人服装定制的框架，用户可在生成过程中交互式切换服装。FashionChameleon包含三项关键技术：(i) 我们不采用多服装视频数据进行训练，而是通过上下文学习，在单参考服装对上训练教师模型。通过保留图像到视频的训练范式，同时强制参考图像与服装图像之间存在不匹配，模型被隐式地鼓励在单服装切换过程中保持连贯性。(ii) 为了实现生成过程中的一致性和高效性，我们引入带上下文学习的流式蒸馏，通过上下文教师强制机制微调模型，并利用梯度重加权分布匹配蒸馏提高外推一致性。(iii) 为了将模型扩展至交互式多服装视频定制，我们提出无训练KV缓存重调度方案，包括服装KV刷新、历史KV撤销和参考KV解耦，从而在保持动作连贯性的同时实现服装切换。我们的FashionChameleon独特地支持交互式定制和一致的长视频外推，同时在单GPU上实现23.8 FPS的实时生成，速度比现有基线方法快30-180倍。

學習預見：揭示在線策略蒸餾的效率解鎖
Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation

May 13

ByYuchen Cai, Ding Cao, Liang Lin, Chunxi Luo, Xin Xu, Kai Yang, Weijie Liu, Saiyong Yang, Tianxiang Zhao, Guangzhong Sun, Guiquan Liu, Junfeng Fang

同策略蒸馏（On-policy Distillation, OPD）已成為大型語言模型高效的後訓練範式。然而，現有研究大多將其優勢歸因於更密集且穩定的監督訊號，而OPD效率背後參數層級的機制仍未獲充分理解。本研究主張，OPD的效率源自一種「遠見」特性：它在訓練初期即建立趨向最終模型的穩定更新軌跡。此遠見體現在兩個層面。首先，在模組分配層級，OPD能識別具有低邊際效用的區域，並將更新集中於對推理更關鍵的模組。其次，在更新方向層級，OPD展現更強的低秩集中性，其主導子空間在訓練初期即與最終更新子空間高度對齊。基於這些發現，我們提出EffOPD——一種即插即用的加速方法，透過自適應選擇外推步長並沿當前更新方向移動，來加速OPD。EffOPD無需額外可訓練模組或複雜的超參數調校，可在維持相當最終表現的同時，實現平均3倍的訓練加速。總體而言，本研究從參數動態視角闡釋OPD的效率機制，並為設計更高效的大型語言模型後訓練方法提供實務洞見。

DexJoCo：基於MuJoCo的任務導向靈巧操作基準與工具包
DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo

May 15

ByHanwen Wang, Weizhi Zhao, Xiangyu Wang, Siyuan Huang, He Lin, Boyuan Zheng, Rongtao Xu, Gang Wang, Yao Mu, He Wang, Lue Fan, Hongsheng Li, Zhaoxiang Zhang, Tieniu Tan

實現人類等級的操作能力需要具備靈巧機器人手部，以執行複雜的物體互動。為進一步提升此類能力，需建立標準化基準以進行系統性評估。然而，現有的靈巧操作基準缺乏能反映靈巧手部相較於平行夾爪之獨特操作能力的任務，亦缺少完整的評估流程。本文提出 DexJoCo——一套專注於任務導向靈巧操作的基準與工具包，包含 11 項以功能為基礎的任務，用以評估工具使用、雙手協調、長時域執行及推理能力。我們開發了一套低成本數據收集系統，並在這些任務中收集了 1,100 條軌跡，同時支援域隨機化以評估其穩健性。我們在多種設定下（包含視覺與動力學隨機化、多任務訓練、以及動作頭適配）對現代模型進行基準測試。透過廣泛的實證分析，我們辨識出當前靈巧操作策略中的數項重要見解與常見限制，並凸顯出未來靈巧手部機器人學習研究的關鍵挑戰。專案頁面請見：https://dexjoco.github.io

透過協作逐步多教師解碼蒸餾長思考鏈推理
Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding

May 4

ByTaewon Yun, Jisu Shin, Jeonghwan Choi, Seunghwan Bang, Hwanjun Song

蒸馏大型推理模型对于使长链思维推理变得实用至关重要，因为全规模推理在计算上仍不可行。现有的基于筛选的方法事后选择完整的推理痕迹，忽视了异构教师之间的协作，且缺乏动态探索，导致冗余采样并错失互补推理。我们提出CoRD，一种协同多教师解码框架，通过基于预测困惑度评分与束搜索进行逐步推理合成。这使得异构长链推理模型能够联合构建连贯的推理轨迹，同时高效保留多样化、高潜力的假设。实验表明，CoRD能生成更高质量的推理数据，并以更少、结构化的监督信号实现接近教师水平的学生性能，而不会带来显著的计算开销。此外，CoRD在领域外及开放设定下具有良好的泛化能力。数据集和模型可在https://github.com/DISL-Lab/CoRD获取。

InsightTok：改善自迴歸圖像生成中離散標記化的文本與人臉保真度
InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation

May 14

ByYang Yue, Fangyun Wei, Tianyu He, Jinjing Zhao, Zanlin Ni, Zeyu Liu, Jiayi Guo, Lei Shi, Yue Dong, Li Chen, Ji Li, Gao Huang, Dong Chen

文字與臉部是視覺生成中最具感知顯著性與實際重要性的模式之一，然而對於建構在離散標記化之上的自回歸生成器而言，它們仍構成挑戰。一個核心瓶頸在於標記化器：激進的下取樣與量化常會捨棄保留可讀字形與獨特臉部特徵所需的細部結構。我們將此差距歸因於標準離散標記化器的目標函數與文字可讀性及臉部逼真度之間的對齊不足，因為這些目標通常為了優化通用重建而壓縮多樣內容，卻未針對特定需求進行調整。為了解決此問題，我們提出InsightTok，一個簡單而有效的離散視覺標記化框架，透過局部化且具內容感知的感知損失來增強文字與臉部的逼真度。憑藉緊湊的16k碼本與16倍下取樣率，InsightTok在文字與臉部重建上顯著優於先前的標記化器，且不損害通用重建品質。這些增益一致地轉移到了InsightAR的自迴歸影像生成中，產出文字更清晰、臉部細節更忠實的影像。整體而言，我們的結果凸顯了在標記化器訓練中加入專門監督對於推進離散影像生成的潛力。

Flash-GRPO：透過一步策略優化實現視訊擴散的高效對齊
Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

May 15

ByXiaoxuan He, Siming Fu, Zeyue Xue, Weijie Wang, Ruizhe He, Yuming Li, Dacheng Yin, Shuai Dong, Haoyang Huang, Hongfa Wang, Nan Duan, Bohan Zhuang

群體相對政策優化已成為將視頻擴散模型與人類偏好對齊的關鍵技術，但面臨嚴重的計算瓶頸：訓練一個140億參數的模型，每次實驗通常需要數百個GPU天。現有方法通過滑動窗口子採樣訓練時間步來降低計算成本，但本質上犧牲了優化效果，表現出嚴重的不穩定性，且無法達到完整軌跡訓練的性能。我們提出Flash-GRPO，一個單步訓練框架，在低計算預算下，其對齊質量超越完整軌跡訓練，同時顯著提升訓練效率。Flash-GRPO解決了兩個關鍵挑戰：等時分組通過強化提示層面的時間一致性來消除時間步混淆的方差，從而解耦策略性能與時間步難度；時間梯度修正抵消了導致不同時間步梯度量級極度不一致的時間依賴縮放因子。在1.3B至14B參數模型上的實驗驗證了Flash-GRPO的有效性，展現出顯著的訓練加速效果、一致的穩定性以及最先進的對齊質量。

推離舒適區：RLVR的高效策略引導探索
Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

May 15

ByChanuk Lee, Sangwoo Park, Minki Kang, Sung Ju Hwang

具可驗證獎勵之強化學習（RLVR）已成為一種可擴展的範式，用於提升大型語言模型的推理能力。然而，其有效性本質上受到探索的限制：策略只能在已採樣的軌跡上進行改進。雖然增加軌跡採樣數量能緩解此問題，但這種暴力擴展的計算成本高昂，而現有修改優化目標的方法對探索內容的控制有限。在此工作中，我們提出 NudgeRL，一個用於 RLVR 中結構化且以多樣性驅動之探索的框架。我們的方法引入策略提示（Strategy Nudging），將每個軌跡採樣條件於輕量級的策略層級上下文之上，以產生多樣化的推理軌跡，無需依賴昂貴的專家監督。為了有效地從此類結構化探索中學習，我們進一步提出一個統一的目標函數，將獎勵訊號分解為上下文間與上下文內分量，並加入一項蒸餾目標，將發現的行為遷移回基礎策略。實驗中，NudgeRL 優於使用高達 8 倍軌跡採樣預算的標準 GRPO，同時在五個具挑戰性的數學基準測試中平均優於專家引導的強化學習基線。這些結果表明，結構化的上下文驅動探索可作為暴力軌跡擴展以及基於特權資訊之可行性導向方法的有效且可擴展替代方案。我們的程式碼現已開源，網址為 https://github.com/tally0818/NudgeRL。

ReactiveGWM：在反應式遊戲世界模型中引導NPC
ReactiveGWM: Steering NPC in Reactive Game World Models

May 14

ByZeqing Wang, Danze Chen, Zhaohu Xing, Zizhao Tong, Yinhan Zhang, Xingyi Yang, Yeying Jin

當前的遊戲世界模型是從主觀且以玩家為中心的視角來模擬環境。然而，這類模型將非玩家角色（NPC）僅視為背景像素，因而無法捕捉玩家與NPC之間的互動。就此而論，它們更像是被動的影像渲染器，而非真正的模擬引擎，缺乏理解動作所引發的NPC反應所需的物理常識。我們提出ReactiveGWM，這是一種反應式遊戲世界模型，能夠合成玩家與NPC之間的動態互動。不同於將所有互動動態糾纏在一起，ReactiveGWM明確地將玩家控制與NPC行為解耦。玩家動作透過輕量化的加性偏置注入到擴散主幹網路中，而高階的NPC反應（例如：攻擊、控制、防禦）則透過交叉注意力模組來落實。關鍵在於，這些模組學會了一種與遊戲無關的互動邏輯表徵。這使得零樣本策略遷移成為可能：我們學習到的模組可以直接插入不同遊戲中現成的、未經標註的世界模型，無需任何領域特定的重新訓練，便能立即啟用可操控的NPC互動。在兩款《快打旋風》遊戲上的評估顯示，ReactiveGWM在維持精細的玩家可控性的同時，也實現了穩健且符合提示引導的NPC策略遵從，為可擴展且富含策略的NPC互動開闢了道路。

赫爾德策略優化
Hölder Policy Optimisation

May 12

ByYuxiang Chen, Dingli Liang, Yihang Chen, Ziqin Gong, Chenyang Le, Zhaokai Wang, Jiachen Zhu, Lingyu Yang, Jianghao Lin, Weinan Zhang, Jun Wang

群組相對策略優化（GRPO）通過在取樣軌跡群組中估算優勢來增強大型語言模型。然而，將這些軌跡層級的優勢映射至策略更新需要聚合每個序列內的詞元級別概率。對此步驟依賴固定聚合機制從根本上限制了演算法的適應性。根據經驗，我們觀察到一個關鍵取捨：某些固定聚合時常遭遇訓練崩潰，而其他則無法產生令人滿意的性能。為了解決此問題，我們提出 HölderPO，一個通過赫爾德平均統一詞元級別概率聚合的廣義策略優化框架。通過明確調節參數 p，我們的框架對梯度集中與方差界限之間的取捨提供連續控制。理論上，我們證明較大的 p 能使梯度集中以放大稀疏學習訊號，而較小的 p 則嚴格限制梯度方差。由於沒有靜態配置能普遍解決此集中-穩定取捨，我們以動態退火算法實例化該框架，該算法在訓練生命週期中逐步調度 p。廣泛的評估顯示出相較於現有基線的優越穩定性和收斂性。具體來說，我們的方法在多個數學基準上達到了最先進的平均準確率 54.9%，相較於標準 GRPO 實現了 7.2% 的顯著相對增益，並在 ALFWorld 上取得了卓越的 93.8% 成功率。

Solvita：透過代理演化增強大型語言模型於競賽程式設計之效能
Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

May 14

ByHan Li, Jinyu Tian, Rili Feng, Yuqiao Du, Chong Zheng, Chenyu Wang, Chenchen Liu, Shihao Li, Xinping Lei, Yifan Yao, Weihao Xie, Letian Zhu, Jiaheng Liu

大型語言模型（LLMs）在應對高難度競賽程式設計所需的嚴謹推理需求上仍力有未逮。雖然近期多智能體框架試圖填補此可靠性缺口，但其本質上仍為無狀態架構：依賴靜態檢索，並捨棄先前任務中積累的有價值問題解決與除錯經驗。為解決此問題，我們提出 Solvita，一個無需更新底層 LLM 權重即可實現持續學習的智能演化框架。Solvita 將問題解決過程重構為策略選擇、程式合成、認證監督與目標性駭入的閉環系統，由四個特化智能體（規劃者、解題者、預言者與駭入者）執行。關鍵在於，每個智能體均配備一個可訓練的圖結構知識網路。當系統運作時，結果訊號（如通過/失敗判定、測試認證品質及駭入者發現的對抗性漏洞）會被重新轉化為這些網路權重的強化學習更新。這使得智能體能根據過往成敗動態路由未來查詢，有效隨時間積累可遷移的推理經驗。在 CodeContests、APPS、AetherCode 及即時 Codeforces 賽局上的評估中，Solvita 創下了程式生成智能體的最新技術水準，不僅超越現有多智能體流程，並將單次生成基線的準確率幾乎翻倍。

從規劃到像素：學習規劃與統籌以實現開放式圖像編輯
From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

May 14

ByAnirudh Sundara Rajan, Krishna Kumar Singh, Yong Jae Lee

現代影像編輯模型能產生逼真的結果，但在處理抽象、多步驟指令（例如「讓這則廣告更符合素食理念」）時仍面臨挑戰。現有的基於代理方法雖能拆解此類任務，但依賴於手動建構的流程或教師模仿，導致靈活性受限，且學習過程與實際編輯結果脫鉤。我們提出一個經驗性框架來處理長時序影像編輯，其中規劃器生成結構化的原子拆解步驟，而協調器則選擇工具與區域來執行每個步驟。視覺語言評判器會根據結果提供基於獎勵的指令遵循度與視覺品質評估。協調器經由訓練最大化這些獎勵，並利用成功的軌跡來優化規劃器。透過將規劃與獎勵驅動的執行過程緊密結合，我們的方法能產生比單步式或規則驅動的多步基線更一致且可靠的編輯成果。

PAGER：彌合點精確幾何圖形介面控制中的語義-執行鴻溝
PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control

May 15

ByJingxuan Wei, Xi Bai, Shan Liu, Caijun Jia, Zheng Sun, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Cheng Tan

大型视觉语言模型显著推动了GUI智能体的发展，使其能够在网页、移动端和桌面界面中实现可执行交互。然而，这些进展在很大程度上依赖于一种宽容的区域容忍范式——即同一组件内的邻近像素点仍被视为有效执行位置。精确几何构建打破了这一假设：操作必须落在连续画布空间中的特定点位上，而非容忍区域内。由于几何基元存在本体论依赖关系，局部坐标误差可能引发级联性的拓扑失效，从而扭曲下游对象并使最终构建无效。我们将此范畴定义为精度敏感型GUI任务，要求点级精度、几何感知验证以及对依赖驱动错误传播的鲁棒性。为对其进行基准测试，我们提出了PAGE Bench，包含4,906个问题与超过224K条经过过程监督的像素级GUI操作。此外，我们提出了PAGER——一种拓扑感知型智能体，它将构建过程分解为依赖结构化规划与像素级执行。基于像素级标注的监督微调建立了可执行操作语法，而精度对齐的强化学习则通过状态条件几何反馈缓解了因 rollout 导致的暴露偏差。实验揭示了显著的语义-执行鸿沟：通用多模态模型的操作类型准确率可超过88%，但任务成功率却低于6%。PAGER填补了这一鸿沟，其任务成功率相比评估中最强的通用基线提升4.1倍，并将GUI专用智能体的步骤成功率从不足9%提升至超过62%，为点精确GUI控制确立了新的最优水平。

CM-EVS：面向完整场景覆蓋的稀疏全景RGB-D-姿態數據
CM-EVS: Sparse Panoramic RGB-D-Pose Data for Complete Scene Coverage

May 15

ByJiale Liu, Jungang Li, Jieming Yu, Xinglin Yu, Zihao Dongfang, Zongjian Ding, Kaifeng Ding, Yi Yang, Lidong Chen, Yang Zou, Shunwen Bai, Jiahuan Zhang, Haoran Huang, Shan Huang, Yudong Gao, Mingjun Cheng

现代三维视觉学习依赖于从度量3D资产中采样的观测数据，然而现有的扫描、网格、点云、仿真及重建结果并未直接提供稀疏、可比较且几何一致的全景训练接口。密集轨迹会重复邻近视角，特定来源的渲染策略会导致异质标注，而稀疏启发式方法可能遗漏关键区域或引入深度不一致的观测。本文研究如何将3D资产转换为稀疏全景RGB-D-姿态数据，在保持完整场景覆盖的同时实现低冗余和可追溯性。我们提出COVER（覆盖导向视点筛选结合ERP范围深度扭曲），这是一种无需训练的ERP视点筛选器，通过将选定视角观测到的几何投影至候选ERP探针、对增量覆盖评分并对深度冲突施加惩罚。在有界代理误差条件下，其贪婪覆盖代理机制可保留标准覆盖式逼近行为（附加误差项可控）。基于COVER，我们构建了CM-EVS（覆盖筛选度量ERP视点集），这是一个包含36,373个筛选ERP帧的全景RGB-D-姿态数据集，涵盖Blender室内、HM3D和ScanNet++的1,275个室内场景，并补充了TartanGround和OB3D中重新编码为相同架构的室外全景图。每个帧提供全球面RGB、度量范围深度及标定姿态；COVER生成的室内帧附带逐步骤可追溯日志。CM-EVS室内场景中位数仅需25帧即可覆盖全部13种统一房间类型，同时保持紧凑的场景级覆盖。实验表明，COVER优化了覆盖-冲突权衡，使CM-EVS成为面向几何一致全景三维学习的稀疏、紧凑且可追溯的RGB-D-姿态资源。

解鎖視覺語言模型中的密集度量深度估計
Unlocking Dense Metric Depth Estimation in VLMs

May 15

ByHanxun Yu, Xuan Qu, Yuxin Wang, Jianke Zhu, Lei ke

視覺語言模型（Vision-Language Models, VLMs）在二維任務（如定位與描述）中表現優異，但在三維理解方面仍受限。其關鍵限制在於純文字監督範式，無法充分約束細粒度視覺感知，亦難以恢復密集幾何結構。既有方法或從外部視覺模型蒸餾幾何資訊，導致誤差累積；或逐像素查詢與粗粒度詞元級別輸出進行直接預測，但效率低落。本文提出DepthVLM，一個簡潔而有效的框架，能將單一視覺語言模型轉化為原生密集幾何預測器，同時保留其多模態能力。透過在大型語言模型骨幹上附加輕量級深度頭，並以兩階段排程在統一視覺-文本監督範式下訓練，DepthVLM能在單次前向傳遞中同時生成全解析度深度圖與語言輸出。我們進一步引入一個以視覺語言模型相容格式統一的室內外度量深度基準測試。實驗結果顯示，DepthVLM以更高推理效率顯著優於現有視覺語言模型，超越領先的純視覺模型，並提升複雜三維空間推理能力，朝向真正的統一基礎模型邁進。所有程式碼與檢查點將公開釋出。

MetaAgent-X：透過端對端強化學習突破自動化多智能體系統的天花板
MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning

May 14

ByYaolun Zhang, Yujie Zhao, Nan Wang, Yiran Wu, Jiayu Chang, Yizhao Chen, Qingyun Wu, Jishen Zhao, Huazheng Wang

自動多智能體系統旨在實例化智能體工作流程，無需依賴手動設計或固定的編排方式。然而，現有的自動化MAS方法仍僅具備部分適應性：它們要麼進行無需訓練的測試時搜索，要麼優化元級設計器，同時保持下游執行智能體固定不變，這便造成了「凍結執行器天花板」效應，且對於自設計與自執行智能體模型的端到端訓練尚未探討。為解決此問題，我們提出MetaAgent-X，這是一個端到端的強化學習框架，可聯合優化自動化MAS的設計與執行。MetaAgent-X實現了基於腳本的MAS生成、執行軌跡收集，以及對設計器和執行器軌跡的信用分配。為支持穩定且可擴展的優化，我們提出執行器-設計器層級展開與階段性共演化，以提升訓練穩定性並揭示設計器與執行器共同演化的動態過程。MetaAgent-X持續優於現有自動化MAS基線，性能提升最高達21.7%。全面的消融實驗表明，設計器和執行器在訓練過程中均持續改進，且有效的自動化MAS學習遵循階段性共演化過程。這些結果確立了端到端可訓練的自動化MAS作為構建自設計與自執行智能體模型的實用範式。

受引導的LLM激活是非滿射的
Steered LLM Activations are Non-Surjective

May 7

ByAayush Mishra, Daniel Khashabi, Anqi Liu

激活導向是一種常見的白箱控制技術，通過修改模型激活值來引發行為上的抽象變化。該技術亦已成為可解釋性（例如探測真實性，或將激活值轉譯為人類可讀的解釋）與安全性研究（例如越獄可能性）中的標準工具。然而，目前尚不清楚導向後的行為是否能由任何文本提示（prompt）實現。在本研究中，我們將此問題歸結為一個滿射性問題：對於一個固定的模型，是否每個導向後的激活值在模型自然前向傳播過程中都存在原像？在實際可行的假設下，我們證明激活導向會將殘差流推離離散提示可達狀態所構成的流形。幾乎可以肯定，沒有任何提示能夠重現由導向所誘發的相同內部行為。我們也透過三個廣泛使用的大型語言模型（LLM）實證驗證了此發現。我們的研究結果確立了白箱可控性與黑箱提示之間的正式區隔。因此，我們提醒不應將激活導向的簡便與成功解讀為基於提示的可解釋性或脆弱性的證據，並主張採用明確區分白箱與黑箱干預的評估協議。

DiagnosticIQ：基於符號規則的LLM工業維護行動建議基準
DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules

May 9

ByDevin Yasith De Silva, Dhaval Patel, Christodoulos Constantinides, Shuxin Lin, Nianjun Zhou, Paul J Adams, Sal Rosato, Nicolas Constantinides, Deborah L. McGuinness, Jayant Kalagnanam

監控複雜工業資產依賴工程師撰寫的符號化規則，這些規則根據感測器條件觸發，並提示技術人員執行修正動作。瓶頸不在於偵測，而在於回應：將規則轉換為維護步驟需要透過多年實務累積的資產特定知識。我們探討大型語言模型能否為此規則轉換行動步驟提供決策支援，並提出名為的基準測試，包含來自16種資產類型、118組規則-行動配對的6,690道專家驗證選擇題。我們貢獻了：(i) 將符號規則正規化為析取範式並結合嵌入式干擾選項取樣的符號轉多選問答流程；(ii) 五種探討不同失效模式的變體（Pro、Pert、Verbose、Aug、Rationale）；以及 (iii) 包含29個大型語言模型與4個嵌入基線的基準測試。一項人為評估（9位從業人員，平均正確率45.0%）證實需要超越操作經驗的專業知識。三項發現值得關注。前沿模型差距縮小：前三名大型語言模型的宏觀分數差距在1分內，而Bradley-Terry Elo評分顯示claude-opus-4-6領先次佳模型30分。然而，Pro變體暴露了脆弱性：在干擾選項擴充下，所有模型的相對準確率下降13%至60%。Aug變體揭露了模式匹配問題：在條件倒置下，前沿模型仍有49%至63%的機率選擇原始答案。部署瓶頸不在於能力，而在於校準：前沿模型能處理模板式故障偵測，但在結構性擾動下即告失效。

MobileEgo Anywhere：面向商用硬體的長時程自我中心資料開放基礎設施
MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware

May 7

BySenthil Palanisamy, Abhishek Anand, Satpal Singh Rathor, Pratyush Patnaik, Shubhanshu Khatana

近年來視覺語言動作模型的進展，驅動了對大規模第一人稱資料集的迫切需求。然而現有資料集常受限於短暫的片段時長（通常僅數分鐘），無法捕捉複雜機器人任務執行所需的長時程時間依賴性。為填補此缺口，我們提出 MobileEgo Anywhere 框架，旨在利用商用行動硬體收集穩定、時長達一小時以上的第一人稱軌跡。我們藉助現代智慧型手機普遍搭載的感測器模組，提供高保真、長期的相機姿態追蹤，有效消除傳統機器人資料收集所需的高昂硬體門檻。我們的貢獻有三：(1) 釋出包含200小時多樣化長形式第一人稱資料且具持續狀態追蹤的新穎資料集；(2) 開源一款行動應用程式，讓任何使用者都能記錄第一人稱資料；(3) 提供完整處理管線，將原始行動裝置錄製內容轉換為標準化、可直接用於訓練的格式，以支援視覺語言動作模型與基礎模型研究。透過普及資料收集流程，本工作使得在多元全球環境中大規模獲取長時程資料成為可能，從而加速可泛化機器人策略的開發。

使用球面潛在編碼器的高效圖像合成
Efficient Image Synthesis with Sphere Latent Encoder

May 15

ByTung Do, Thuan Hoang Nguyen, Hao Li

少步图像生成近期发展迅速，其中基于一致性和均值流的方法显著减少了采样步数。尽管推理成本低，但这些方法常面临训练不稳定与可扩展性有限的问题。Sphere Encoder 作为近期提出的替代方案，能在仅需数步的条件下生成高质量图像；然而，该方法在推理时需在像素空间与潜在空间之间反复切换，并在单一架构中联合优化重建与生成任务。这一设计导致计算效率低下，且重建与生成之间存在目标冲突。为解决这些局限，我们将框架解耦为固定的预训练图像编码器与独立的潜在去噪模型，后者完全在球形潜在空间中进行训练。本方法在训练和推理过程中消除了重复的像素空间操作，提升了效率，并使重建与生成能够各自独立专精。在 Animal-Faces、Oxford-Flowers 和 ImageNet-1K 数据集上，我们的方法在生成质量与推理速度上均显著优于 Sphere Encoder，同时与强大的少步与多步基线模型相比也取得了具有竞争力的结果。

稀疏自編碼器實現CLIP模型的穩健且可解釋微調
Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models

May 15

ByFabian Morelli, Arnas Uselis, Ankit Sonthalia, Seong Joon Oh

大型预训练视觉-语言模型（如CLIP）在各类任务中展现出显著的零样本性能。然而，通过微调这些模型提升下游任务表现时，往往会导致模型对分布偏移的鲁棒性下降。近期研究尝试缓解这一权衡问题，但通常依赖计算成本高昂的文本引导方法。我们提出了一种全新的鲁棒微调方法——SAE-FT，该方法仅对模型的视觉表征进行操作。SAE-FT通过惩罚对预训练模型训练的稀疏自编码器所识别的语义有意义特征的增减行为，来约束视觉表征的变化。这一约束机制既防止了灾难性遗忘，又使微调过程具备可解释性，从而能够直接分析语义变化。SAE-FT兼具机制透明与计算高效的特点，在ImageNet及其相关分布偏移基准测试中达到或超越了当前最先进性能。代码已开源：https://github.com/Fabian-Mor/sae-ft

FFAvatar：少樣本、前饋且可泛化的虛擬化身重建
FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction

May 14

ByThuan Hoang Nguyen, Jiahao Luo, Yinyu Nie, Hao Li, Gordon Guocheng Qian, Jian Wang

傳統頭像重建通常依賴於逐主體優化，需要數小時的計算，或依賴於昂貴的預處理，限制了可擴展性。我們提出 FFAvatar，一個可泛化的前饋式框架，能在數秒內從少量未經姿態處理的肖像圖像中重建高品質、可動畫化的三維高斯頭像。FFAvatar 通過多視圖查詢變形器將多張源圖像的信息融合到統一的規範高斯表示中，並透過端到端直接從像素預測的 FLAME 參數進行動畫化，消除了離線 FLAME 提取的開銷。我們進一步提出三階段訓練課程，實現了廣泛的泛化能力和高保真重建：(i) 在包含超過 100 萬個身分的龐大單目視頻數據上進行可擴展預訓練，以學習強大的可泛化先驗；(ii) 在少量但高品質的 360 度捕捉數據集上進行多視圖微調，以增強幾何保真度與極端視角感知能力；(iii) 可選的個性化步驟，在 500 步優化內適應特定身分以獲得最大保真度。大量實驗表明，FFAvatar 在身分保持、幾何一致性與動畫保真度方面樹立了新標準。在 NeRSemble 基準測試中，其 PSNR 指標比當前最佳方法 LAM 顯著提升了 5.5 dB。此外，FFAvatar 支援即時部署，無需個性化時可在 2 秒內重建頭像，加上個性化也僅需 10 秒，並在單張 NVIDIA A100 GPU 上實現 49 FPS 的動畫渲染。

先看再跳：大型語言模型智能體的自主探索
Look Before You Leap: Autonomous Exploration for LLM Agents

May 15

ByZiang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, Fuli Feng

基於大型語言模型的智能體經常在不熟悉的環境中失敗，原因在於過早利用：即在獲取足夠的環境特定資訊之前，便傾向於依賴既有知識採取行動。我們認為自主探索是建構適應性智能體的關鍵能力，但此能力至今仍未被充分探討。為正式定義並量化此能力，我們引入「探索檢查點覆蓋率」一詞，這項可驗證指標衡量智能體探索關鍵狀態、物體及其可供性的廣泛程度。我們的系統性評估顯示，經由標準任務導向強化學習訓練的智能體，始終表現出狹隘且重複的行為模式，從而阻礙後續任務表現。為解決此限制，我們開發了一種訓練策略，將任務執行軌跡與探索軌跡交錯進行，並以各自對應的可驗證獎勵進行優化。基於此訓練策略，我們提出「先探索後行動」範式，將資訊收集與任務執行分離：智能體首先利用互動預算來獲取紮根於環境的知識，再將其運用於解決任務。我們的結果表明，學習系統性地探索對於建構可泛化且適應真實世界的智能體至關重要。

WorldAct：將整體式3D世界激活為可互動的以物件為中心的場景
WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes

May 15

ByJichen Hu, Jiawei Guo, Jiazhong Cen, Chen Yang, Sikuang Li, Wei Shen

基於生成式場景合成的最新3D世界建模系統（例如Marble）能夠產生連貫且可探索的3D環境，但其輸出通常是靜態的單一資產，編輯能力與物理互動性有限。這限制了它們在沉浸式內容創作與具身模擬中的應用，因為在這些場景中，生成的虛擬世界必須能被主動修改與操作。為應對此挑戰，我們提出WorldAct框架，可將靜態生成的3D世界轉換為可編輯且具備互動條件的場景。WorldAct利用多模態代理引導場景分解、識別可操作物體、重建幾何對齊的物體級網格以支援互動，並透過3D修復還原殘留背景。產生的場景支援物體級編輯、碰撞感知操作以及具身任務執行，同時維持整體場景的連貫性。實驗結果顯示，WorldAct相較於原始生成場景能實現更豐富的互動場景，為邁向可編輯與互動的3D世界模型提供了一條實用路徑。

從失敗中學習：基於可驗證獎勵的修正導向策略優化
Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

May 14

ByMengjie Ren, Jie Lou, Boxi Cao, Xueru Wen, Hongyu Lin, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu

可驗證獎勵強化學習（RLVR）已成為提升大型語言模型推理能力的有效範式。然而，RLVR訓練常受稀疏二元獎勵與薄弱信用分配所阻礙，導致最佳化訊號模糊不清，且未能充分利用失敗軌跡中所蘊含的有用資訊。為應對此挑戰，我們提出面向修正的策略最佳化（CIPO），這是一個簡單且有效的RLVR擴展，能將在策略下的失敗軌跡轉化為面向修正的監督訊號，無需依賴任何外部訊號。透過聯合最佳化來自模型自身失敗嘗試的修正樣本與標準RLVR目標，CIPO提升了學習效能，同時明確增強模型修正自身錯誤的能力。涵蓋數學推理與程式碼生成在內共11個基準的廣泛實驗證明，CIPO在推理與修正表現上均一致且顯著地優於強基線方法。此外，CIPO帶來更強的pass@K增益，表明其提升了模型的內在推理能力，而非僅是重新分配現有正確答案上的機率質量。

基於智能體的神經架構發現：AIRA-Compose 與 AIRA-Design
Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

May 15

ByAlberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach

針對遞迴自我改進，我們研究能自主設計超越標準Transformer架構基礎模型的大語言模型代理。我們引入雙框架方法：AIRA-組合（AIRA-Compose）用於高層級架構搜尋，以及AIRA-設計（AIRA-Design）用於低層級機制實作。AIRA-組合運用11個代理，在24小時預算內探索基本計算原語。代理評估百萬參數候選方案，並將頂尖設計外推至3.5億、10億與30億參數規模，最終產出兩個家族共14種架構：AIRAformer（基於Transformer）與AIRAhybrid（Transformer-Mamba混合）。這些架構在10億參數規模下預訓練後，持續優於Llama 3.2及Composer所建立的基準。在下游任務中，AIRAformer-D與AIRAhybrid-D的準確率分別較Llama 3.2提升2.4%與3.8%。此外，AIRA-組合發現具備高效擴展曲線的模型：AIRAformer-C擴展速度較Llama 3.2及Composer最佳Transformer快54%與71%，而AIRAhybrid-C擴展速度則較Nemotron-2快23%，並較Composer最佳混合模型快37%。AIRA-設計則指派20個代理編寫新穎的注意力機制，以處理長程依賴關係及產出高效能訓練腳本。在Long Range Arena基準測試中，代理設計的架構在文檔匹配與文本分類任務上，分別達到僅差人類最佳水準2.3%與2.6%的表現。在Autoresearch基準測試中，Greedy Opus 4.5於固定時間預算下達到0.968的驗證位元組位元率，超越已發表的極小值。綜合而言，這些框架證明了AI代理能自主發現與手動設計基準相當或更優的架構與演算法最佳化。此成果為發現下一代基礎模型建立了強效範例，標誌著邁向遞迴自我改進的明確一步。

從觀測中學習具有語言模型先驗的POMDP世界模型
Learning POMDP World Models from Observations with Language-Model Priors

May 13

ByValentin Six, Frederik Panse, Mathis Fajeau, Lancelot Da Costa, Mridul Sharma, Alfonso Amayuelas, Tim Z. Xiao, David Hyland, Philipp Hennig, Bernhard Schölkopf

无论是导航建筑、操作机器人还是玩游戏，一个在环境中有效行动的智能体必须首先学习该环境运作的内部模型。部分可观测马尔可夫决策过程（POMDP）为此类内部世界模型提供了灵活的建模类别，但仅从观测-动作轨迹中学习此类模型颇具挑战性，通常需要大量的环境交互。我们探究语言模型先验能否通过利用先验知识减少昂贵的交互成本，并引入Pinductor（POMDP-推导器）：一种让大语言模型（LLM）从少量观测-动作轨迹中提出候选POMDP模型，并通过迭代优化基于信念的似然分数的框架。尽管使用的信息严格更少，Pinductor在性能与样本效率上均能与假设可获取隐藏状态特权信息的基于LLM的POMDP学习方法相匹敌，同时显著优于表格型POMDP基线方法的样本效率。进一步结果表明，其性能随LLM能力提升而扩展，并在隐藏环境语义信息时表现出优雅的性能衰退。这些结果共同表明，语言模型先验可作为在部分可观测条件下实现样本高效世界模型学习的实用工具，并向通用智能体在实际环境中的应用迈进一步。代码开源地址：https://github.com/atomresearch/pinductor。

HodgeCover：高階拓撲覆蓋驅動稀疏混合專家模型的壓縮
HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts

May 13

ByTao Zhong, Dongzhe Zheng, Christine Allen-Blanchette

稀疏混合專家（MoE）層將令牌路由至少數專家，對此類層進行無學習壓縮可減少推理成本而無需重新訓練。一個微妙障礙阻礙了該系列中的所有現有壓縮器：三個專家可能兩兩相容，但合併時卻形成不可約循環，因此任何基於成對訊號對專家進行排序的分數，在結構上無法感知哪些三元組可共同合併。我們證明此障礙是一個精確的數學對象，即二維複形上單純拉普拉斯算子的諧波核，該複形的頂點為專家、邊承載KL合併障礙、面承載三元組障礙；對邊障礙訊號進行霍奇分解可精確隔離該核。我們將此診斷轉化為選擇目標：霍奇覆蓋貪婪地覆蓋諧波關鍵邊與三元組關鍵三角形，其混合變體則將霍奇覆蓋與現成的權重剪枝結合應用於倖存專家。在三種開放權重稀疏MoE骨幹上，面對激進的專家壓縮，霍奇覆蓋在專家壓縮維度上與最先進的無學習基準相當，在混合維度的激進壓縮前沿領先，並獨特地平衡了所有四個霍奇分量上的保留質量。這些結果表明，揭示學習所得MoE結構的諧波核，會改變在最關鍵場景下取勝的壓縮器。

OmniHumanoid：基於無配對適配的串流式跨體態影片生成
OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

May 12

ByYiren Song, Xiyao Deng, Pei Yang, Yihan Wang, Mike Zheng Shou

跨本體影片生成旨在將動作遷移應用於不同的人形本體之間，例如從人類到機器人以及機器人之間，從而為具身智能實現可擴展的數據生成。此設定中的一項主要挑戰在於：動作動態在不同本體之間部分可轉移，而外觀與形態則仍具有本體特異性。現有方法常將這些因素糾纏在一起，且許多方法需要針對每個目標本體提供配對數據，這限制了其對新機器人的可擴展性。我們提出 OmniHumanoid，一個將可轉移動作學習與本體特異性適應進行分解的框架。該方法從涵蓋多種本體的運動對齊配對影片中學習共享的動作遷移模型，同時僅透過未配對影片並借助輕量化的本體特定適配器來適應新本體。為減少動作遷移與本體適應之間的干擾，我們進一步引入分支隔離注意力設計，將動作條件化與本體特定調製分離。此外，我們構建了一個合成的跨本體數據集，其中包含在多種人形資產、場景和視角下渲染的運動對齊配對影片。在合成與真實世界基準上的實驗表明，OmniHumanoid 在無需重新訓練共享動作模型的情況下，能實現強大的動作保真度與本體一致性，同時支持對未見過的人形本體進行可擴展的適應。

ChangeFlow——用於遙感變化檢測的潛在修正流
ChangeFlow -- Latent Rectified Flow for Change Detection in Remote Sensing

May 14

ByBlaž Rolih, Matic Fučka, Filip Wolf, Luka Čehovin Zajc

遥感变化檢測（RSCD）旨在定位同一地理區域兩張影像之間的變化。在實務中，變化遮罩常遵循區域級標註慣例，而非純粹基於局部外觀差異，因此具有上下文依賴性且偶有模糊性。多數先進方法採用逐像素判別式分類，每個輸入僅產出單一預測，無法將變化區域明確建模為一連貫整體。一個自然的替代方案是生成式模型，它能建模可行遮罩的分布，透過取樣來捕捉模糊性並促進全域一致性。然而，現有的生成式RSCD方法因像素空間生成的運算成本高昂及其條件化機制的複雜性，通常落後於強勢的判別式基線。為克服先前判別式與生成式方法的限制，我們提出ChangeFlow，這是一個生成式框架，將變化檢測重新定義為透過修正流在潛在空間中合成變化遮罩。ChangeFlow由結構化但輕量級的條件訊號引導，其隨機設計自然支援基於取樣的預測集成。具體而言，彙總多個預測的變化遮罩能提升穩健性，而樣本間的一致性則提供實用的信心估計，凸顯模糊區域。在四個基準測試中，ChangeFlow平均F1分數達80.4%，較先前最佳方法平均提升1.3個百分點，同時推論速度與近期強基線相當。專案頁面：https://blaz-r.github.io/changeflow_cd

稽核代理安全吊帶
Auditing Agent Harness Safety

May 14

ByChengzhi Liu, Yichen Guo, Yepeng Liu, Yuzhe Yang, Qianqi Yan, Xuandong Zhao, Wenyue Hua, Sheng Liu, Sharon Li, Yuheng Bu, Xin Eric Wang

LLM 代理越來越常在執行框架中運行，這些框架負責調度工具、分配資源，並在專業組件之間路由訊息。然而，一個框架可能返回一個正確且良性的答案，但其執行軌跡卻可能存取未經授權的資源，或將上下文洩露給錯誤的代理。輸出層級的評估無法察覺這些失敗，儘管許多違規行為發生在執行軌跡的中段而非終止時，但多數安全基準僅對最終輸出或終止狀態進行評分。核心問題在於框架是否在整個執行過程中尊重使用者意圖、權限邊界以及資訊流限制。為解決此缺口，我們提出 HarnessAudit，這是一個能全面審查執行軌跡的框架，涵蓋邊界合規性、執行忠實度與系統穩定性，尤其聚焦於這些風險最為顯著的多代理框架。我們進一步引入 HarnessAudit-Bench，這是一個包含 210 項任務的基準測試，涵蓋八個真實世界領域，並以單代理與多代理兩種配置嵌入安全限制。評估前沿模型與三個多代理框架上的十種框架配置後，我們發現：(i) 任務完成度與安全執行不一致，且違規行為隨軌跡長度累積；(ii) 安全風險因領域、任務類型與代理角色而異；(iii) 多數違規集中在資源存取與代理間資訊傳遞；(iv) 多代理協作擴大了安全風險面，而框架設計則決定了安全部署的上限。

Physics-R1：一個經審核的奧林匹亞語料庫與視覺物理推理方法
Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

May 13

ByShan Yang

我們從頭到尾審查了多模態物理評估流程，並記錄了三種未被發現的建構實務，這些實務扭曲了該領域衡量視覺語言推理的方式：訓練-評估污染、翻譯漂移和選擇題飽和。(1) 公開訓練池（UGPhysics-Train、SciInstruct、MMK12）通過了單階段 5-gram-Jaccard 審計，在所有六個公開物理評估中零命中；三階段審計（Jaccard -> mxbai-embed-large 餘弦 -> Haiku-4.5 LLM 評判）僅在 SciInstruct 中就發現了 134 個近乎重複的條目和 4,846 個釋義候選。(2) 在 59 道配對的愛沙尼亞語-英語奧賽題上，Sonnet 4.5 的 Δ 值為 17 個百分點（30.5% vs. 13.6%；符號檢定 p=0.011，McNemar 檢定 p=0.021，配對拔靴法 95% CI [+5.1, +28.9] 個百分點）。(3) 在相同的 Sonnet 權重下，選擇題（PhyX 上 79.7%）與開放式奧賽評估（PhysOlym-A 上 33.4%）之間存在 46 個百分點的格式與新穎性梯度。我們發布了四個工件來彌補這些差距：PhysCorp-A（6,432 條記錄的三階段審計多模態語料庫）、PhysR1Corp（2,268 條記錄的封閉式 RL 池）、PhysOlym-A（500 道題、99.8% 新來源的保留奧賽評估，附帶原生難度標籤和英/愛沙尼亞語雙語子集），以及 Physics-R1，一個從 Qwen3-VL-8B-Thinking 冷啟動的參考 GSPO+DAPO 配方。在 3 個隨機種子上，Physics-R1 將審計後的語料庫在 PhysOlym-A 寬鬆標準上相比 8B 基座提升了 +18.3 個百分點（8.0 -> 26.3 +/- 1.7；落後 Sonnet 4.5 7.1 個百分點），在 PhysReason 上提升了 +15.7 個百分點（23.9 -> 39.6 +/- 6.4；領先 Qwen3-VL-32B 和 Gemini 2.5 Pro），在 OlympiadBench-Physics 上提升了 +6.9 個百分點（46.2 +/- 1.5），在 PhyX 選擇題上提升了 +4.1 個百分點（77.8 +/- 0.3）。

GQLA：用於硬件自適應大型語言模型解碼的分組查詢潛在注意力
GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

May 14

ByFanxu Meng

群組查詢潛在注意力（Group-Query Latent Attention, GQLA），是對多頭潛在注意力（Multi-head Latent Attention, MLA，即DeepSeek-V2/V3所用注意力機制）的最小化修改。MLA將鍵（Keys）與值（Values）共同壓縮為低秩潛在表示，幾乎完美契合H100的roofline模型。然而，其訓練權重僅暴露一種解碼路徑——即吸收式MQA（Absorbed MQA）形式——這使得高效推理綁定於H100等級的計算頻寬比，喪失了沿頭軸（head axis）的張量並行（tensor parallelism）能力，並在如出口受限的H20等商用推理GPU上無法獲得任何多令牌預測（Multi-Token Prediction, MTP）增益。我們提出群組查詢潛在注意力（GQLA），此機制僅對MLA進行極小改動，其訓練權重在相同參數下暴露兩種代價等價的解碼路徑：一是與MLA完全相同的MQA吸收路徑，另一是具備每群組擴展快取的GQA路徑。運行時可根據目標硬體自動選擇合適路徑——無需重新訓練，無需自訂核函數——因此單一組GQLA權重即可同時釘住H100（MQA吸收模式，sq=1）與H20（GQA + MTP模式，sq=2）的roofline，同時在GQA路徑上支援高達8路零冗餘張量並行。為避免從頭預訓練，我們將TransMLA擴展為TransGQLA，可將預訓練的GQA檢查點轉換為GQLA模型；在LLaMA-3-8B上，此法在MQA吸收路徑上將每令牌KV快取壓縮至GQA基線的28.125%，同時在每群組路徑上在結構上保持GQA等級的流量。

持久遺忘：基於電路歸因的量化永久性遺忘
Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution

May 14

BySaisab Sadhu, Pratinav Seth, Vinay Kumar Sankarapu

標準的反學習評估測量的是全精度下的行為抑制，且僅在訓練完成後立即進行，然而所有部署的語言模型都必須先經過量化處理。近期研究顯示，4位元訓練後量化能夠逆轉機器反學習的效果；我們證明這並非單純的調校假象，而是系統性的雙重失效：能夠實現有意義遺忘的梯度式方法，在壓縮後會失去遺忘效果；而能夠在量化後存活下來的方法，卻幾乎不會改變模型。這兩種失效模式都源於同一個根本原因：在所有基準方法中，每個參數的更新量比NF4量化分箱寬度低了47至828倍；分散在數十億個參數中的更新量無法跨越量化分箱的邊界，我們將此現象形式化為「稀疏性-持久性權衡」。我們提出MANSU（機制對齊零空間反學習），透過結合因果電路歸因以隔離最小遺忘集合子圖、使用對角Fisher保留界限進行電路限制的零空間投影，以及透過建構方式保證量化存活性的每個參數量級下限，來解決這兩種失效模式。我們還引入了「電路歸因分歧」（CAD），這是一種機制性驗證指標，能夠區分結構擦除與行為抑制——這是現有指標無法做到的區分。在多個模型系列與危害基準測試中，MANSU是首個能夠同時滿足所有四項特性（有意義的遺忘、保留維持、非正PTQ差距、結構擦除）且每項都留有餘裕的方法，而基於梯度的基準方法在壓縮後會恢復高達+0.05的準確率。

遵循均值：參考引導的流匹配
Follow the Mean: Reference-Guided Flow Matching

May 12

ByPedro M. P. Curvo, Maksim Zhdanov, Floor Eijkelboom, Jan-Willem van de Meent

現有的可控生成方法通常依賴於微調、輔助網絡或測試時搜尋。我們證明流匹配提供了一種不同的控制介面：透過樣本進行適應。對於確定性插值方法，速度場完全由條件端點均值決定；改變此均值即會改變流本身。這產生了可控生成的一個簡單原則：透過改變預訓練模型所遵循的參考集來引導該模型。我們以兩種形式具體實現此想法。參考均值引導為免訓練方法：它從參考庫計算出閉合形式的端點均值修正，並將其應用於凍結的 FLUX.2-klein（4B）模型，從而在保持提示、隨機種子和權重不變的情況下，實現對顏色、身份、風格和結構的控制。半參數引導則透過明確的均值錨點和學習到的殘差精煉器來實現相同概念，在 AFHQv2 上達到與無條件 DiT-B/4 相當的品質，同時允許在推理時更換參考集。這些成果指出了一個更廣泛的方向：生成模型應透過資料而非參數更新來適應。

Raster2Seq：用於平面圖重建的多邊形序列生成
Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction

May 11

ByHao Phung, Hadar Averbuch-Elor

從已柵格化的平面圖影像重建出結構化的向量圖形表示，通常是自動化理解或 CAD 工作流程等涉及平面圖的計算任務的重要前提。然而，現有技術在忠實生成複雜平面圖所傳達的結構與語義方面仍面臨挑戰，這類平面圖描繪了具有大量房間與多變多邊形角點的大型室內空間。為此，我們提出 Raster2Seq，將平面圖重建視為一個序列到序列的任務，其中平面圖元素（例如房間、窗戶和門）被表示為標記化的多邊形序列，以聯合編碼幾何形狀與語義。我們的方法引入了一種自回歸解碼器，它能根據圖像特徵以及先前生成的角點，並藉助可學習錨點的引導，來學習預測下一個角點。這些錨點代表圖像空間中的空間坐標，從而有效引導注意力機制聚焦於信息豐富的圖像區域。透過採用自回歸機制，我們的方法在輸出格式上提供了靈活性，能夠高效處理具有大量房間與多樣多邊形結構的複雜平面圖。我們的標準基準測試（如 Structure3D、CubiCasa5K 和 Raster2Graph）上達到了最先進的性能，同時也在更具挑戰性的資料集（如 WAFFLE）上展現了強大的泛化能力，該資料集包含多樣的房間結構與複雜的幾何變化。

AuralSAM2：透過金字塔音視覺特徵提示賦予SAM2聽覺能力
AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting

May 14

ByYuyuan Liu, Yuanhong Chen, Chong Wang, Junlin Han, Junde Wu, Can Peng, Jingkun Chen, Yu Tian, Gustavo Carneiro

分段任意模型2（SAM2）在視訊片段的可提示分割中展現出強大的泛化能力，然而其與音頻模態的整合仍未被充分探索。現有方法要麼透過基礎模型將音頻轉換為視覺提示（例如邊界框），要麼在影像編碼器中注入適配器以實現音頻-視覺融合。然而，這兩種方向在人機迴圈場景中均存在不足，原因在於提示精度有限且推理開銷增加。特別是，這些基於適配器的方法常遭受音頻提示稀釋問題，即訊號在網路中傳播時逐漸減弱。在本工作中，我們提出AuralSAM2，該方法在將音頻整合至SAM2的同時，大致保留其可提示分割能力。其核心模組AuralFuser融合音頻與視覺特徵，生成稀疏與密集提示。這些提示以音頻為引導，基於SAM2的特徵金字塔，將聽覺線索傳播至各視覺層，強化跨模態影響。為進一步對齊模態，我們引入一種音頻引導的對比損失，該損失強調主導視覺特徵中的聽覺相關性。本方法在公開基準上取得顯著精確度提升，同時對可提示分割的互動效率影響極小。我們的程式碼已公開於 https://github.com/yyliu01/AuralSAM2。

在最小形式化下使用證明對大型語言模型的推理能力進行壓力測試
Stress-Testing the Reasoning Competence of LLMs With Proofs Under Minimal Formalism

Apr 7

ByKonstantine Arkoudas, Serafim Batzoglou

我們介紹了 ProofGrid，這是一個基準套件，用於透過機器可驗證的證明（而非僅依賴最終答案）來評估大型語言模型的推理能力。ProofGrid 包含 15 項任務，涵蓋證明撰寫、證明檢查、證明遮蔽與證明填空。所有任務均以最小化的形式化符號表達，尤其是 NDL（一種緊湊的自然演繹語言），它適用於簡短提示，並支援精確、可審計的驗證。這實現了機械性、可重複且細粒度的評估，而非依賴人類或大型語言模型進行判斷。ProofGrid 涵蓋了一個經過校準的難度光譜，從基礎推理測試到結構豐富的挑戰性任務（目前尚無模型能解決），同時將對領域知識、求解器委派及長上下文偽影的依賴降至最低。我們也發展了一個用於推理基準比較的框架，並藉此將 ProofGrid 定位於現有相關工作之中，從表徵方式、驗證保證與推理深度等面向進行比較。在方法論上，我們引入了一套經過儀器化設計的證明驗證流程，該流程能容忍微小的表面偏差，同時定位第一個實質性的推理失敗點，從而改善測量解析度，並將證明規劃與低階執行雜訊分離。利用此流程，我們評估了廣泛的開放源碼及專有模型。結果顯示進展迅速，但仍存在重大限制：前沿模型在若干基礎任務上表現良好，然而困難任務（尤其是那些需要全域組合推理或低階證明合成的任務）仍遠未解決。我們也發現了認知不穩定性現象——模型會產生有缺陷的證明，卻能正確拒絕那些局部推理，並以認知穩定性指標加以形式化。最後，我們以 2PL IRT 分析、Wright 圖，以及基於 Fisher 資訊的標準化任務區分度量來補充準確率評估。

以其行為識之：透過UI痕跡對LLM瀏覽器代理進行指紋辨識
Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

May 14

ByWilliam Lugoloobi, Samuelle Marro, Jabez Magomere, Joss Wright, Chris Russell

隨著以大型語言模型為基礎的智慧代理人日益代表使用者瀏覽網頁，一個自然衍生的問題隨之浮現：網站能否被動地識別出驅動該代理人的底層模型？若能如此，將構成重大的安全隱憂，使得針對已知模型漏洞的定向攻擊成為可能。我們在涵蓋資訊檢索與購物任務的14個前沿大型語言模型及四個網路環境中，證明了透過被動JavaScript追蹤器所捕捉的代理人動作與互動時序，足以識別其底層模型，最高可達96%的F1分數。我們透過展示基於代理人動作訓練的分類器可泛化至不同模型規模與系列，正式定義了此攻擊面。我們進一步證明，僅需少數互動軌跡即可訓練出高效分類器，且代理人身份能在單一任務片段內早期推斷。在動作之間注入隨機化的時間延遲會顯著降低分類器效能，但無法提供穩固的防護：針對延遲軌跡重新訓練的分類器大致能恢復原有效能。我們開源了測試框架與標註過的代理人軌跡語料庫，網址為 https://github.com/KabakaWilliam/known_actions{此處}。

無人知曉地理空間基礎模型的最新進展
No One Knows the State of the Art in Geospatial Foundation Models

May 12

ByIsaac Corley, Nils Lehmann, Caleb Robinson, Gabriel Tseng, Anthony Fuller, Hamed Alemohammad, Evan Shelhamer, Jennifer Marcus, Hannah Kerner

地理空間基礎模型（GFMs）已被提出作為適用於災害應對、土地覆蓋製圖、糧食安全監測及其他高風險地球觀測任務的通用型骨幹架構。然而，關於這些模型的已發表文獻並未提供足夠資訊，讓審稿人或使用者判斷何種模型最適合特定任務。我們認為，目前無人確知地理空間基礎模型的技術現狀為何。這些方法或許有其價值，但GFM文獻在評估標準、訓練與測試流程、釋出權重及預訓練控制條件等方面的規範化程度不足，以致無法進行比較或排序。在針對152篇論文的審查中，我們發現同一模型、基準與流程組合下，共有46次跨論文實質分歧（差異至少10個百分點）；在可提取預訓練資料的126篇論文中，有94篇採用獨一無二的配置（其他論文未使用）；此外，39%的GFM論文未釋出模型權重。此類社群標準缺失問題實可解決。我們提出六項具體期望：具名授權之權重釋出、共享核心評估項目、抄襲與重跑基準註記、變異數報告、單一共享評估框架，以及數據、架構與演算法之控制變因設計。這些落差屬於協調失敗，而非任何單一實驗室之過；本論文作者如同GFM社群其他成員，亦曾對此現象有所貢獻。我們的目的不僅是批判社群，更在於提供具體步驟，以期共同理解如何推動GFM創新。

MLAIRE：多語言語言感知資訊檢索評估協議
MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal

May 8

ByYoungjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim

多語言資訊檢索（Multilingual Information Retrieval）在真實世界的搜尋情境中日趨重要，使用者常在混合語言的語料庫中提出查詢。現有評測主要獎勵與語言無關的語義相關性，將相關段落視為同等，無論其語言為何。然而，檢索的實用性亦取決於檢索段落的語言：使用者可能偏好能以查詢語言閱讀及驗證的結果；而查詢與段落間的語言不匹配，則可能使檢索增強生成系統中的下游實體化與答案驗證複雜化。為評估此語言感知維度，我們提出 MLAIRE（多語言語言感知資訊檢索評測協定），該協定能釐清跨語言語義檢索與查詢語言偏好之間的關係。MLAIRE 建構包含多語言平行段落的受控池，從而能在提供等效翻譯時，分別量測語義檢索準確度與查詢語言偏好。我們提出語言感知指標，包括語言偏好率（LPR）及 Lang-nDCG，並搭配四向分解法，將語義檢索失敗與查詢語言偏好失敗區分開來。透過評估 31 種密集式、稀疏式及晚期交互檢索器，我們顯示標準指標掩蓋了不同行為：語義表現強的檢索器可能以非查詢語言回傳正確內容，而查詢語言偏好較強的檢索器則可能檢索到語義相關性較低的段落。