HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

48 papers found

程式碼作為代理框架
Code as Agent Harness

May 18

ByXuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He

172

近期大型語言模型（LLMs）在程式碼理解與生成方面展現出強大能力，涵蓋範疇從競賽程式設計到儲存庫層級的軟體工程。在新興的自主代理系統中，程式碼不再僅是最終產出目標，而是逐漸成為代理進行推理、行動、環境建模以及基於執行的驗證時的操作基礎。我們透過代理架構的視角來詮釋此轉變，並提出「程式碼作為代理架構」此一統一觀點，將程式碼視為代理基礎設施的核心。為系統性地探討此觀點，我們以三個相互關聯的層面來組織本調查報告。首先，研究架構介面，其中程式碼將代理與推理、行動及環境建模連結起來。其次，探討架構機制：規劃、記憶與工具使用以實現長期任務執行，同時引入反饋驅動的控制與最佳化，使架構可靠且具適應性。第三，討論架構從單一代理系統擴展至多代理場景，此時共享的程式碼產物可支援多代理協調、審查與驗證。在這些層面中，我們總結了「程式碼作為代理架構」的代表性方法與實際應用，涵蓋程式設計助手、GUI/作業系統自動化、具身代理、科學發現、個人化與推薦、DevOps以及企業工作流程。我們進一步概述了架構工程中的開放挑戰，包括超越最終任務成功的評估、在不完整反饋下的驗證、無回歸的架構改進、跨多個代理的一致共享狀態、針對安全關鍵行動的人類監督，以及對多模態環境的延伸。透過將程式碼定位為自主AI的架構，本調查提供了一條邁向可執行、可驗證且具狀態的AI代理系統的統一路線圖。

SkillsVote：智能体技能从收集、推荐到演化的生命周期治理
SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

May 18

ByHongyi Liu, Haoyan Yang, Tao Jiang, Bo Tang, Feiyu Xiong, Zhiyu Li

117

長程LLM代理會留下痕跡，這些痕跡可能轉化為可重複使用的經驗，但原始軌跡既嘈雜又難以掌控。我們將代理技能視為一種經驗模式，它將可執行腳本與關於程序流程的非可執行指導結合在一起。然而，開放技能生態系統包含冗餘、不均勻且對環境敏感的產物，而無差別的更新可能污染未來的上下文。我們提出SkillsVote，這是一個從收集、推薦到演化，針對代理技能生命週期的治理框架。SkillsVote對百萬規模的開源語料庫進行剖析，以評估環境需求、品質與可驗證性，接著為可驗證技能合成任務。在執行前，SkillsVote對結構化技能庫進行代理庫搜索，以揭示指導性的技能上下文。執行後，它將軌跡分解為與技能關聯的子任務，將結果歸因於技能使用、代理探索、環境與結果訊號，並且僅允許成功的可重用發現進入受證據控管的更新。在我們的評估中，離線演化使GPT-5.2在Terminal-Bench 2.0上提升高達7.9個百分點，而在線演化使SWE-Bench Pro提升高達2.6個百分點。總體而言，當系統控制曝光、信用與保存方式時，受治理的外部技能庫可以在無需模型更新的情況下，提升凍結代理的性能。

LongLive-2.0：用於長視頻生成的NVFP4並行基礎架構
LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

May 18

ByYukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao, Qixin Hu, Shaoteng Liu, Yuyang Zhao, Huizi Mao, Ying-Cong Chen, Enze Xie, Xiaojuan Qi, Song Han

101

我們介紹 LongLive-2.0，這是一個基於 NVFP4 的平行基礎設施，貫穿長影片生成的完整訓練與推理流程，旨在解決速度與記憶體瓶頸。在訓練方面，我們引入了序列平行自迴歸（AR）訓練，具體實作為 Balanced SP，透過在每個 rank 上配對純淨歷史區塊與雜訊目標時間區塊，將高效的教師強制佈局與 SP 執行共同設計，從而實現自然的教師強制遮罩與具 SP 感知能力的分塊 VAE 編碼。結合 NVFP4 精度，它能降低 GPU 記憶體成本，並加速訓練中的 GEMM 計算，且隨著影片長度增加，計算佔比也隨之提升。此外，我們顯示高品質的基礎設施與資料集能實現極簡潔的訓練流程。與現有依賴 ODE 初始化及後續分佈匹配蒸餾（DMD）的 Self-Forcing 系列方法不同，LongLive-2.0 直接將擴散模型微調為長影片、多鏡頭、互動式自迴歸（AR）擴散模型，並可進一步轉換為即時生成（4 至 2 個去噪步驟），搭配獨立的 LoRA 權重。在 Blackwell GPU 上進行推理時，我們啟用了 W4A4 NVFP4 推理，將 KV 快取量化為 NVFP4 以節省記憶體，並透過非同步串流式 VAE 解碼提升端到端吞吐量。在非 Blackwell GPU 架構上，我們部署 SP 推理以達到與 Blackwell GPU 相當的速度，同時量化的 KV 快取能降低 SP 的 GPU 間通訊。實驗顯示，訓練速度最高提升 2.15 倍，推理速度最高提升 1.84 倍。LongLive-2.0-5B 在基準測試中達到 45.7 FPS 的推理速度，並展現優異性能。據我們所知，LongLive-2.0 是首個用於長影片生成的 NVFP4 訓練與推理系統。

Lance: 透過多任務協同的統一多模態建模
Lance: Unified Multimodal Modeling by Multi-Task Synergy

May 18

ByFengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

我們提出Lance，這是一個輕量級的原生統一模型，支援圖片與影片的多模態理解、生成與編輯。不同於依賴模型規模擴展或文字-圖片主導的設計，Lance透過協作式多任務訓練，探索一套適用於統一多模態建模的實用範式。其基礎建立在兩項核心原則上：統一上下文建模與解耦能力路徑。具體而言，Lance從零開始訓練，並採用雙流混合專家架構作用於共享的交錯多模態序列，在解碼理解與生成路徑的同時，實現聯合上下文學習。我們進一步引入模態感知旋轉位置編碼，以減輕異質視覺標記間的干擾，並提升跨任務的對齊效果。訓練過程中，Lance採用分階段的多任務訓練範式，搭配能力導向的目標函數與適應性資料排程，強化語意理解與視覺生成效能。實驗結果顯示，Lance在圖片與影片生成方面明顯超越現有開源統一模型，同時保有強大的多模態理解能力。首頁網址為 https://lance-project.github.io。

AI 用於自動研究：路線圖與使用者指南
AI for Auto-Research: Roadmap & User Guide

May 18

ByLingdong Kong, Xian Sun, Wei Chow, Linfeng Li, Kevin Qinghong Lin, Xuan Billy Zhang, Song Wang, Rong Li, Qing Wu, Wei Gao, Yingshuo Wang, Shaoyuan Xie, Jiachen Liu, Leigang Qu, Shijie Li, Lai Xing Ng, Benoit R. Cottereau, Ziwei Liu, Tat-Seng Chua, Wei Tsang Ooi

AI輔助研究正跨越一個門檻：全自動系統如今能以低至15美元的價格生成研究論文，而長程自主代理則能在極少人為輸入的情況下執行實驗、撰寫草稿，並模擬審查意見。然而，這一生產力前沿卻暴露出更深層的誠信問題：在科學壓力下，即使是前沿的大型語言模型仍會捏造結果、忽略隱藏錯誤，且無法可靠判斷新穎性。本研究將截至2026年4月的發展納入分析，針對AI在完整研究生命週期中的應用，提出端到端的評估，並按四個認識論階段進行劃分：創造（構想生成、文獻回顧、程式碼與實驗、表格與圖表）、寫作（論文寫作）、驗證（同儕審查、答辯與修訂），以及傳播（海報、簡報、影片、社群媒體、專案網頁與互動代理）。我們發現，在可靠輔助與不可靠自主之間存在一個鮮明且依階段而變的界線：AI在結構化、基於檢索及工具輔助的任務中表現優異，但在真正新穎的構想、研究層級的實驗與科學判斷上仍顯脆弱。生成的構想在實施後往往品質下降，研究程式碼遠落後於模式比對基準，而端到端自主系統尚未能持續達到頂尖會議的接受標準。我們進一步指出，更高的自動化可能掩蓋而非消除失敗模式，使得人類主導的協作成為最可靠的部署範式。最後，我們提供結構化的分類法、基準測試集與工具清單、跨階段設計原則，以及一份從業者導向的操作手冊，相關資源均在我們的專案頁面持續更新。

CHI-Bench：AI代理能否自動化端到端、長週期、政策密集的醫療工作流程？
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

May 15

ByHaolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao

端到端的真實醫療保健營運自動化強調了當前基準測試中三項未被充分體現的能力：政策密度（決策必須基於大量的醫療、保險及營運規則庫）；多重角色組成（單一任務要求代理扮演多個角色並進行交接）；以及多邊互動（工作流程的中間步驟涉及多輪對話，例如同儕審查與患者聯繫）。我們引入了χ-Bench，這是一個跨三個領域的長期醫療保健工作流程基準：提供者事前授權、支付者利用管理及護理管理。每個任務在一個高保真模擬器中提供臨床案例給代理，該模擬器包含20個醫療保健應用程式，透過87個MCP工具對外暴露。代理必須通過工具呼叫與撰寫角色的產出物，將案例驅動至終端狀態，並遵循一份由1,290多份文件組成的管理式醫療營運手冊技能指南。在30種代理框架/模型配置中，最佳代理僅解決了28.0%的任務，沒有任何代理在嚴格通過^3標準上超過20%，而在單次會話中執行所有任務時，性能下降到3.8%。這些結果提出了一個假設：在其他政策密集、角色組成、不可逆轉的企業領域中，很可能會出現類似的差距。

程式碼即房間：透過代理式程式碼合成從俯視圖影像生成3D房間
Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

May 18

ByYixuan Yang, Zhen Luo, Wanshui Gan, Jinkun Hao, Junru Lu, Jinghao Yan, Zhaoyang Lyu, Xudong Xu

設計逼真且功能完整的3D室內房間對於廣泛的應用至關重要，包括室內設計、虛擬實境、遊戲以及具身智能。雖然近期基於多模態大語言模型（MLLM）的方法在從文字描述或參考圖像合成3D房間方面展現出巨大潛力，但文字為基礎的方法難以捕捉精確的空間資訊，而現有的圖像條件智能體在從俯視圖進行整體房間生成時，則存在不穩定與無限循環的問題。為了解決這些局限，我們提出「程式碼即房間」（Code-as-Room）框架——一個基於MLLM的智能體框架，配備結構化的執行調度機制，並以Blender程式碼來表示3D房間。給定一張俯視房間圖像，該框架會解析參考圖像以提取場景元素及其空間關係，並在一個原則性、多階段的流程中，合成用於幾何、材質與燈光的可執行Blender程式碼。我們全程維護一個跨階段的記憶模組，以緩解現有智能體框架固有的上下文遺忘問題。此外，我們還引入了專為基於程式碼的3D房間合成設計的基準測試，涵蓋多種評估協議。根據此基準測試，我們與現有基於智能體的方法進行了全面比較，以驗證我們所提出的執行調度機制的有效性。

KVPO：基於ODE原生的GRPO在KV語義探索下的自迴歸視頻對齊
KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

May 14

ByRuicheng Zhang, Kaixi Cong, Jun Zhou, Zhizhou Zhong, Zunnan Xu, Shuiyang Mao, Wei Liu, Xiu Li

將串流自回歸（AR）影片生成器與人類偏好進行對齊是一項挑戰。現有的強化學習方法主要依賴基於噪聲的探索及基於SDE的代理策略，這些方法與蒸餾AR模型的確定性ODE動態不匹配，且傾向於擾動低層外觀，而非對長期連貫性至關重要的高層語義故事線進展。為解決這些限制，我們提出KVPO——一個專為串流影片生成器對齊設計的ODE原生線上群組相對策略優化（GRPO）框架。在多樣性探索方面，KVPO引入因果語義探索範式，將變異的來源從隨機噪聲重新定位至歷史KV快取。透過隨機路由歷史KV條目，該方法建構出語義多樣的生成分支，且這些分支嚴格位於資料流形上。在策略建模方面，KVPO基於軌跡速度能量（TVE）提出速度場代理策略，該策略在流匹配速度空間中量化分支可能性，並產出與原生ODE公式完全一致的獎勵加權對比目標。在多個蒸餾AR影片生成器上的實驗顯示，無論是單提示短影片還是多提示長影片設定，KVPO在視覺品質、運動品質及文字-影片對齊方面均取得一致提升。

OProver：一個用於智能體形式定理證明的統一框架
OProver: A Unified Framework for Agentic Formal Theorem Proving

May 17

ByDavid Ma, Kaijing Ma, Shawn Guo, Yunfeng Shi, Enduo Zhao, Jiajun Shi, Zhaoxiang Zhang, Gavin Cheung, Jiaheng Liu, Zili Wang

近期形式化定理证明的进展得益于大规模证明生成和验证器感知训练，但智能体证明很少被整合进证明器训练中，仅在推理时出现。我们提出 OProver，一个用于 Lean 4 中智能体形式化定理证明的统一框架，在该框架中，失败的证明尝试通过检索编译器验证的证明和 Lean 编译器反馈进行迭代修正。OProver 通过持续预训练及后续的迭代后训练进行训练：每次迭代执行智能体证明，将新验证的证明索引到 OProofs 和检索记忆中，将修复轨迹用作 SFT 数据，并将未解决的困难实例用于强化学习。OProofs 基于公开的 Lean 资源、大规模证明合成以及智能体证明轨迹构建，包含 177 万条 Lean 语句、686 万个编译器验证的证明，以及带有检索上下文、失败尝试、反馈和修复的序列化轨迹。在五个基准测试中，OProver-32B 在 MiniF2F（93.3%）、ProverBench（58.2%）和 PutnamBench（11.3%）上取得了最佳 Pass@32 成绩，在 MathOlympiad（22.8%）和 ProofNet（33.2%）上排名第二，其顶级排名数量超过之前任何开源权重的全证明证明器。

後訓練的混合專家模型可通過自蒸餾跳過一半專家
Post-Trained MoE Can Skip Half Experts via Self-Distillation

May 18

ByXingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou

混合专家模型（MoE）通过稀疏专家激活高效扩展语言模型，其动态变体进一步根据输入自适应调整激活的专家，从而减少计算量。现有动态MoE方法通常依赖从头预训练或任务特定适配，尚未充分探索如何将已完全训练的MoE模型进行实用化转换。实现此类适配可直接降低推理成本，因为服务时可让简单token绕过不必要的专家计算。本文提出零专家自蒸馏适配方法（ZEDA），这是一个低成本框架，能将训练后的静态MoE模型转换为高效的动态模型。为稳定这种架构转换，ZEDA在每个MoE层注入无参数零输出专家，并通过两阶段自蒸馏适配增强后的模型，同时利用原始MoE作为冻结教师模型，并应用组级平衡损失。在Qwen3-30B-A3B和GLM-4.7-Flash上，针对涵盖数学、代码和指令遵循的11个基准测试，ZEDA在仅微小精度损失的情况下消除了超过50%的专家FLOP。它在两个模型上分别比最强的动态MoE基线高出6.1和4.0个点，并实现了约1.20倍的端到端推理加速。

VideoSeeker：透過原生智能體工具調用促進實例級影片理解
VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

May 15

ByYiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng Zhao

大型视觉语言模型在视频理解领域取得了显著进展，但在需要实例级精确实时定位的任务中仍面临重大挑战。现有方法主要依赖文本提示进行人机交互，但这类提示难以提供精确的空间与时间参考，导致用户体验不佳。此外，当前方法通常将视觉感知与语言推理解耦，使推理过程围绕语言而非视觉内容展开，从而限制了模型主动感知细粒度视觉证据的能力。为解决这些问题，本文提出VideoSeeker——一种基于视觉提示的实例级视频理解新范式。VideoSeeker将智能体推理与实例级视频理解任务无缝融合，使模型能够按需主动感知并检索相关视频片段。我们构建了四阶段全自动数据合成流程，高效生成大规模、高质量的实例级视频数据。通过冷启动监督与强化学习训练，将工具调用与主动感知能力内化至模型中，打造出强大的视频理解模型。实验表明，我们的模型在实例级视频理解任务上相较基线平均提升+13.7%，超越GPT-4o和Gemini-2.5-Pro等强大的闭源模型，同时在通用视频理解基准上展现出有效的迁移能力。相关数据集与代码将公开发布。

LiteFrame：高效視覺編碼器解鎖視頻LLM中的幀規模擴展
LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

May 17

ByJihwan Kim, Nikhil Parthasarathy, Danfeng Qin, Junhwa Hur, Deqing Sun, Bohyung Han, Ming-Hsuan Yang, Boqing Gong

擴展影片大語言模型（Video Large Language Models, Video LLMs）以處理長影片時，根本的挑戰在於管理視覺令牌上下文長度的爆炸性增長。現有策略主要聚焦於「事後」令牌縮減——即在特徵提取後減少視覺令牌，以減輕LLM的計算負擔。然而我們觀察到，儘管這類方法有效降低了視覺令牌數量，主要的延遲瓶頸卻從LLM轉移至視覺編碼器昂貴的逐幀處理。為解決此問題，我們提出LiteFrame——一個強健且高效的影片編碼器主幹，專為Video LLM設計。為訓練LiteFrame，我們提出壓縮令牌蒸餾（Compressed Token Distillation, CTD），這是一種新穎的訓練框架，教導緊湊的學生視覺編碼器直接預測由大型教師視覺模型所產生的信息密集、時空壓縮表徵，從而有效繞過冗餘計算。當進一步結合語言模型適應（Language Model Adaptation, LMA）時，此方法形成了新的延遲-準確率帕累托前沿——相較於InternVL3-8B，LiteFrame在處理8倍數量幀的同時，端到端延遲降低35%，並在多項基準測試中提升了平均影片理解準確率。我們的成果展示了在固定計算預算下，解鎖更長影片理解的新潛在路徑。

在推理收斂時停止：語義保持的推理模型提前退出
Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

May 17

ByDehai Min, Giovanni Vaccarino, Huiyi Chen, Yongliang Wu, Gal Yona, Lu Cheng

大型推理模型（LRMs）通过生成长链思维（CoT）取得了强大的性能，但常常出现过度思考的情况——即使在解答已经趋于稳定后仍在继续推理，从而浪费令牌并增加延迟。现有的推理阶段提前退出方法主要依赖答案层面的信号（如置信度或试答一致性）来决定何时停止。然而，这些信号主要反映答案的完备性而非推理的收敛性：它们可能在模型尚未完成探索或自我修正之前就被触发，导致过早退出，从而降低最终答案的准确性，并使保留的推理链在语义上不完整。我们发现，推理层面的语义冗余可作为语义保持型提前退出的互补信号：当后续步骤不再增加新的进展，而是重复已有的结论时，推理轨迹很可能已经收敛。基于这一见解，我们提出了PUMA，一种即插即用的框架，它将轻量级的冗余检测器与答案层面的验证相结合。检测器标记出语义冗余的候选退出点，而验证则确认停止是否安全，从而使PUMA能够去除冗余的后续推理，同时保留答案准确性和连贯的推理前缀。在五个大型推理模型和五个具有挑战性的推理基准测试上，PUMA实现了平均26.2%的令牌减少，同时保持了准确性和保留的CoT质量。在代码生成、零样本视觉语言推理以及学习停止策略内化方面的额外实验进一步表明，推理层面的冗余是一种稳健、可迁移且可学习的信号，可用于高效推理。我们的代码可在 https://github.com/giovanni-vaccarino/PUMA 获取。

開放式大型語言模型中最大激活值的測量
Measuring Maximum Activations in Open Large Language Models

May 15

ByLuxuan Chen, Han Tian, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

激活函數的動態範圍是低位元量化、激活縮放及穩定大型語言模型推論的首要約束條件。先前的研究針對2024年之前的LLaMA架構模型，描述了異常特徵與大規模激活現象，而下游的激活量化堆疊技術沿用了此觀點，未就後LLaMA時代開源模型蓬勃發展的現狀重新檢視。我們從部署角度提出問題：在現代開源大型語言模型中，激活值最大可達何種規模？此規模在不同模型系列、世代與訓練階段間又如何變化？透過統一管線（5,000樣本多領域語料庫、各系列專屬分詞器、嵌入層、隱藏狀態、注意力機制、MLP/MoE、SwiGLU閘控與最終正規化層採用相同掛鉤），我們測量了8個開源系列（涵蓋密集模型、MoE、視覺語言模型、中間訓練版本及指令微調版本）共27個檢查點的全局與逐層最大值。我們發現：（i）在可比參數規模下，全局最大值橫跨近四個數量級，Qwen3.5與MoE檢查點落在10²至10³範圍，而Gemma3-27B-it達到約7×10⁵；（ii）跨系列與跨世代比較打破了簡單的單調縮放規律；（iii）MoE檢查點的峰值比同規模密集模型低14.0至23.4倍，而殘差流在22/24個檢查點中承載了全局最大值。透過輕量INT-8驗證，顯示測量最大值與低位元重建誤差（透過激活尺度選擇）存在共變關係。我們結論：最大激活量級是與模型系列、架構及訓練階段密切相關的模型屬性，並非單純由模型大小衍生，應在低位元部署前，隨任何開源權重釋出一併測量與報告。程式碼已公開於 https://github.com/clx1415926/Max_act_llm。

StableVLA: 邁向無需額外數據的穩健視覺-語言-動作模型
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

May 18

ByYiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun, Qiyang Min, Qibin Hou, Yansong Tang, Jianan Wang, Daquan Zhou

不可能在训练数据集中涵盖所有可能的干扰。这引发了一个关于视觉-语言-动作（VLA）模型在遇到未见过的真实世界视觉干扰时的鲁棒性的关键问题，特别是在不完美的视觉条件下。在这项工作中，我们基于近期最先进的VLA模型进行了系统性研究，并揭示了当引入训练数据中未出现的视觉干扰时，模型性能显著下降。为解决此问题，我们提出一种基于信息理论的轻量级适配器模块，称为信息瓶颈适配器（IB-Adapter），它可选择性地过滤视觉输入中的潜在噪声。无需任何额外数据或增强策略，IB-Adapter 在平均性能上比基线提升30%，同时仅增加不到1000万个参数，展现出显著的效率和有效性。此外，即使使用小14倍的骨干网络（0.5B参数）且未在Open X-Embodiment数据集上进行预训练，我们的模型StableVLA也能实现与7B级别最先进VLA相媲美的鲁棒性。在可忽略的参数开销（<10M）下，我们的方法在长时域任务上保持准确性，并在合成和物理视觉损坏情况下超越OpenPi。

終端提示：通過終端錨定實現高效的長上下文擴展
EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

May 14

ByHan Tian, Luxuan Chen, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Jinman Zhao, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

扩展大型語言模型的上下文窗口通常需要在目標長度的序列上進行訓練，這會帶來二次方的記憶體與計算成本，使得長上下文適配既昂貴又難以重現。我們提出 EndPrompt，一種僅使用短訓練序列即可實現有效上下文擴展的方法。其核心洞見在於：讓模型暴露於長程相對位置距離並不需要建構完整的長度輸入——我們保留原始短上下文作為完整的第一區段，並附加一個簡短的終端提示作為第二區段，為其分配接近目標上下文長度的位置索引。這種兩區段結構在短物理序列中同時引入了局部與長程相對距離，同時維持訓練文本的語義連貫性——這是分割連續上下文的基於區塊的模擬方法所缺乏的特性。我們提供了基於旋轉位置嵌入與伯恩斯坦不等式的理論分析，顯示位置插值對注意力函數施加了嚴格的平滑性約束，而共享的 Transformer 參數進一步抑制了對未觀測中間距離的不穩定外推。應用於將上下文窗口從 8K 擴展至 64K 的 LLaMA 系列模型，EndPrompt 在 RULER 上平均得分 76.03，在 LongBench 上取得最高平均值，超越 LCEG（72.24）、LongLoRA（72.95）及完整長度微調（69.23），同時所需計算量大幅減少。這些結果表明，長上下文泛化可從稀疏的位置監督中誘發，挑戰了「密集長序列訓練是可靠上下文窗口擴展的必要條件」的主流假設。程式碼已於 https://github.com/clx1415926/EndPrompt 公開。

模型自適應工具必要性揭示大型語言模型工具使用中的知行差距
Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

May 13

ByYize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz

大型語言模型（LLM）逐漸成為自主代理，必須決定何時直接回答，何時應調用外部工具。先前研究自適應工具使用的文獻，多半將工具必要性視為與模型無關的屬性，由人類或LLM評判者標註，且主要涵蓋答案顯而易見的案例（例如查詢天氣 vs. 改寫文本）。然而，現實中的工具必要性因模型之間能力邊界的差異而更加複雜：一個強模型能獨自解決的問題，對弱模型而言可能仍需藉助工具。在本研究中，我們提出一種基於模型自適應的工具必要性定義，以各模型的實證表現為基礎。遵循此定義，我們比較四個模型在算術與事實性問答資料集上的必要性與實際工具調用行為，發現分別存在 26.5-54.0% 與 30.8-41.8% 的顯著不一致。為診斷此失敗，我們將工具使用分解為兩個階段：反映模型是否認為需要工具的內部認知階段，以及決定模型是否實際執行工具調用動作的執行階段。透過探測LLM的隱藏狀態，我們發現這兩個訊號通常可線性解碼，但在驅動下一個詞元動作的後期層、最後詞元區域中，其探測方向近乎正交。透過追蹤樣本在兩階段過程中的軌跡，我們進一步發現大多數不一致集中在認知到行動的轉換階段，而非認知本身。這些結果揭示了LLM工具使用中的「知行差距」：提升工具使用可靠性不僅需要更好地識別何時需要工具，還需要更好地將該識別轉化為實際行動。

AstraFlow：資料流導向的強化學習用於代理型LLM
AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

May 15

ByHaizhong Zheng, Yizhuo Di, Jiahui Wang, Shuowei Jin, Xueshen Liu, Yongji Wu, Z. Morley Mao, Ion Stoica, Jiawei Zhao, Beidi Chen

強化學習（Reinforcement Learning, RL）正被越來越多地用於提升大型語言模型在推理、編碼及工具使用方面的能力，但代理人強化學習（agentic RL）的成本仍然高得令人卻步。將RL擴展到代理人大型語言模型（agentic LLMs），需要支援複雜的工作負載，包括多策略協作訓練，同時有效利用彈性、異質及跨區域的運算資源。現有的LLM RL系統雖然支援其中部分功能，但每次新增擴展通常都需要專門的系統工程。這種負擔源於以訓練器為中心的控制架構，以及缺乏針對RL系統元件的原則性抽象。為解決這些限制，我們提出AstraFlow，一個以資料流為導向的RL系統，它用原則性的元件抽象取代傳統以訓練器為中心的控制。在AstraFlow中，滾動服務（rollout services）、資料流管理及訓練被解耦為自主元件，使系統能夠原生支援複雜的多策略代理人RL工作負載，並有效利用多樣的運算資源。我們在數學、程式碼、搜尋及AgentBench工作負載上評估AstraFlow，結果顯示同一系統無需系統層級的程式碼更改，即可支援多策略訓練、彈性擴展、異質跨區域執行及可組合的資料演算法。在多策略協作訓練中，AstraFlow在達到與現有RL系統相當或更佳準確度的同時，將訓練時間加速了2.7倍。

扩散應進入語言模型的何處？幾何引導的隱藏狀態替換
Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

May 14

ByInjin Kong, Hyoungjoon Lee, Yohan Jo

連續擴散語言模型的表現仍落後於自回歸Transformer，部分原因在於擴散機制所應用的空間不適合語言去噪與Token恢復。我們提出DiHAL，一種幾何引導的擴散-Transformer混合模型，旨在探討擴散應如何進入預訓練Transformer。DiHAL透過幾何代理指標對層級進行評分，選取適合擴散的隱藏狀態介面，並以擴散步橋取代下層Transformer前綴，同時保留上層與原始語言模型輸出層。透過重建所選層的隱藏狀態而非Token，DiHAL避免了直接從連續域到離散域的恢復過程。在8B規模骨幹模型上的實驗顯示，在固定步橋訓練協議下，幾何評分能有效預測淺層插入位置；而在匹配擴散步/恢復訓練預算的診斷比較中，隱藏狀態恢復的表現優於連續擴散基準方法。這些結果表明，隱藏狀態的幾何特性有助於辨識預訓練語言模型中哪些位置適合進行基於擴散的取代。

透過對比配對搜索的靶向神經調控
Targeted Neuron Modulation via Contrastive Pair Search

May 12

BySam Herring, Jake Naviasky, Karan Malhotra

語言模型經過指令微調後會拒絕有害請求，但這種行為背後的機制仍知之甚少。流行的引導方法作用於殘差流，在高度干預時會降低輸出連貫性，限制了其實用性。我們提出對比神經元歸因（CNA），能識別出0.1%的MLP神經元——其激活狀態最能區分有害提示與良性提示，僅需前向傳遞，無需梯度或輔助訓練。在指令模型中，消除所發現的電路在標準越獄基準測試中將拒絕率降低超過50%，同時在所有引導強度下保持流暢度和非退化性。將CNA應用於Llama和Qwen架構（從1B到72B參數）的配對基礎模型與指令模型，我們發現基礎模型包含相似的後層區分結構，但引導這些神經元只產生內容偏移，而非行為改變。這些結果表明，神經元層級的干預能實現可靠的行為引導，且無需犧牲殘差流方法的品質。更廣泛而言，我們的研究發現暗示，對齊微調將既有的區分結構轉化為稀疏且可定向的拒絕閘門。

CompactAttention：使用區塊聯合KV選擇加速分塊預填充
CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

May 16

ByJiwon Song, Dongwon Jo, Beomseok Kang, Jae-Joon Kim

分塊預填充已成為長上下文大型語言模型中廣泛採用的服務策略，但在該模式下實現高效的注意力計算仍極具挑戰。現有的稀疏注意力方法主要針對一次性預填充設計，無法有效遷移至分塊預填充：當查詢長度受限於塊大小時，塊稀疏內核效率下降；而細粒度模式搜索在每次處理新塊時需重複掃描累積的KV快取，導致計算成本高昂。近期提出的QUOKA方法直接針對分塊預填充，避免了稀疏內核的開銷，但其依賴查詢子採樣的標記層級KV選擇機制，可能遺漏查詢特定的KV條目，並引入顯式的KV複製開銷。為解決上述限制，我們提出CompactAttention——一種基於塊聯合KV選擇的分塊預填充注意力機制。CompactAttention將二維塊稀疏遮罩視為KV選擇信號而非直接執行稀疏內核的計劃，並通過Q塊聯合與組內聯合將其轉換為GQA感知的每組KV塊表。此構造能在分頁執行約束下，生成保留輸入遮罩所選所有KV塊的最小塊表，從而使選中的KV塊無需顯式KV壓縮即可原地存取。在LLaMA-3.1-8B-Instruct模型上，CompactAttention在RULER基準測試中保持與密集注意力相近的準確度，同時在128K上下文長度的分塊預填充場景下，實現高達2.72倍的注意力加速。

從可運行到可交付：基於多智能體測試驅動開發從需求生成全端網頁應用程式
From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

May 17

ByYuxuan Wan, Tingshuo Liang, Jiakai Xu, Jingyu Xiao, Yintong Huo, Michael R Lyu

编码代理能够根据自然语言描述生成网页应用，然而近期一项基准测试研究表明，生成的应用在超过70%的案例中未能满足功能需求。核心难点在于，网页的正确性无法通过源文件或终端输出进行评估：应用必须被部署，通过模拟浏览器交互进行执行，且失败必须转化为可操作的修复信号——当前代理在没有人工干预的情况下无法完成这些步骤。我们提出了TDDev，一个通过三个阶段自动化这一闭环的框架：（1）在编写任何代码之前，将高层需求转化为结构化的验收测试；（2）部署应用并通过基于浏览器的交互模拟进行验证；（3）将浏览器观察到的失败转化为面向编码代理的结构化修复报告。借助TDDev，我们首次对网页应用生成的测试驱动开发（TDD）策略进行了受控实证研究，比较了两种编码代理、两种骨干模型及两种基准测试下的四种开发协议。TDD基础设施普遍使生成质量比无TDD基线提升了34至48个百分点。核心发现是，最优协议取决于模型的生成风格：整体构建应用的模型最受益于代理强制执行，而保守扩展代码的模型则更受益于增量强制执行。协议与生成风格不匹配会完全消除TDD的优势，同时使令牌成本增加高达25倍。一项用户研究证实，TDDev将人工开发者干预减少为零，将工作负担从持续的提示工程转变为自主的、基于反馈的优化。

NGM：一個即插即用、無需訓練的大型語言模型記憶模組
NGM: A Plug-and-Play Training-Free Memory Module for LLMs

May 16

ByYuwen Qu, Wenhui Dong, Chenyang Si, Caifeng Shan

近期研究引入了条件记忆模块，将知识存储与神经计算解耦，从而能够更直接地访问知识。与依赖动态计算路径的MoE相比，显式查找提供了一种更高效的知识检索机制。然而，这些方法仍然依赖于学习得到的记忆嵌入，需要额外训练并限制了灵活性。为此，我们提出N元记忆（N-gram Memory, NGM），这是一种无需训练、即插即用的模块，由因果N元编码器（Causal N-Gram Encoder）和余弦门控记忆注入器（Cosine-Gated Memory Injector）组成。因果N元编码器直接对骨干模型的预训练词元嵌入取平均来构建N元表示，从而无需从零开始训练独立的N元嵌入。这一设计既不需要额外的记忆表，也不需要检索流程。余弦门控记忆注入器随后使用带ReLU的非参数化余弦门控，将检索到的嵌入调制到上下文表示中。我们在Qwen3系列（0.6B至14B）的八个基准上对NGM进行了评估。NGM将平均性能提升了0.5到1.2个百分点，在代码生成和知识密集型任务上尤其显著（例如，Qwen3-14B在LiveCodeBench上提升+3.0，在GPQA上提升+3.03）。此外，NGM在多模态基准上也提升了性能（例如，Qwen3-VL-2B在MMStar上提升+1.53）。

WavFlow：波形空間中的音頻生成
WavFlow: Audio Generation in Waveform Space

May 18

ByFeiyan Zhou, Luyuan Wang, Shoufa Chen, Zhe Wang, Zhiheng Liu, Yuren Cong, Xiaohui Zhang, Fanny Yang, Belinda Zeng

現代音訊生成主要依賴於潛在空間壓縮，這引入了額外的複雜性與潛在的資訊損失。在本研究中，我們透過 WavFlow 框架挑戰此典範，該框架能直接在原始波形空間中生成高保真音訊，無需中間表示。為克服高維度與低能量訊號建模的固有困難，我們透過波形分塊將音訊重塑為二維 token 網格，並引入幅度提升以對齊訊號尺度，藉由流匹配中的直接 x 預測實現穩定優化。為捕捉複雜的語義對齊與時序同步，我們利用自動化資料管線篩選出 500 萬個高品質的影片-文字-音訊三元組，使模型能從零開始學習精細的聲學模式。實驗結果顯示，WavFlow 在影片轉音訊基準 VGGSound（FD_PaSST: 59.98，IS_PANNs: 17.40，DeSync: 0.44）與文字轉音訊基準 AudioCaps（FD_PANNs: 10.63，IS_PANNs: 12.62）上均達到競爭力表現，匹配甚至超越既有潛在空間方法的效能。我們的研究證明了中間壓縮並非高品質合成的必要條件，為多模態音訊生成提供了更簡潔且更具可擴展性的替代方案。

TOBench：面向真實世界工具使用智能體的任務導向全模態基準
TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

May 16

ByZhiqiang Liu, Wenhui Dong, Yilang Tan, Yuwen Qu, Haochen Yin, Chenyang Si

工具型智能代理日益被期望能夠在現實的專業工作流程中運作，在這些流程中，它們必須解讀多模態輸入、協調外部工具、檢視中間產出，並在最終成果產出前修正其行動。然而，現有的基準測試往往孤立地評估工具使用、電腦操作與多模態推理，導致基準設定與真實世界中端到端的全模態工具使用之間存在落差。為填補此落差，我們提出 MM-ToolBench——一個針對任務導向的全模態工具使用基準測試與評估平台。MM-ToolBench 包含來自兩大任務類別（客戶服務與智能創作）的100項可執行任務，涵蓋20個子類別分項，並由27個 MCP 伺服器（提供324項工具）支援。MM-ToolBench 的核心設計在於閉環多模態驗證：代理必須執行工具、檢視經渲染或轉換的成品，並在輸出未達任務特定要求時自行修正。為使此類評估可擴展且可驗證，MM-ToolBench 將基於 MCP 的執行流程與任務特定的紮根評估器，以及一個半自動化建構管線（涵蓋場景探索、任務實例化、評估器合成與人工審核）相結合。針對15個當代代理模型的實驗顯示，MM-ToolBench 仍極具挑戰性：通常被視為最強程式碼代理模型之一的 Claude Opus 4.6，任務成功率僅達32.0%，遠低於人類基準的94.0%。我們期望 MM-ToolBench 能作為一個實用基礎，透過閉環多模態驗證來評估並推動次世代全模態工具型代理的進步。

AtlasVA：面向無教師VLM代理的自演化視覺技能記憶
AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

May 18

ByPan Wang, Yihao Hu, Xiujin Liu, Jingchu Yang, Hang Wang, Zhihao Wen

视觉语言模型（VLM）智能体日益依赖记忆增强强化学习来在长时程任务中复用经验，然而现有框架大多以文本形式存储记忆，并依赖专有教师模型来总结或精炼这些记忆。这种设计与空间决策任务并不匹配：几何先验信息被压缩为有损的语言描述，稀疏的交互过程往往通过延迟的文本反馈而非密集的视觉化信号进行监督。我们认为，VLM智能体的可复用经验应当保持视觉化基础。基于这一洞察，我们提出AtlasVA——一种无需教师模型的视觉技能记忆框架，它将记忆组织为三个互补层次：空间热力图、视觉示例和符号化文本技能。AtlasVA进一步通过轨迹统计和轻量级网格启发式方法直接演化出危险图谱与亲和力图谱，并将这些自演化图谱用作基于势的塑形奖励，以支持强化学习。这一框架统一了感知、记忆与优化，无需外部大语言模型监督。在Sokoban、FrozenLake、3D具身导航和3D机器人操作基准上的实验表明，AtlasVA始终优于以文本为中心的记忆基线和有竞争力的VLM智能体，尤其在空间密集型任务上表现突出。主页：https://wangpan-ustc.github.io/AtlasvaWeb

MixSD：混合上下文自我蒸餾用於知識注入
MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

May 16

ByJiarui Liu, Lechen Zhang, Yongjin Yang, Yinghui He, Yingheng Wang, Weihao Xuan, Zhijing Jin, Mona Diab

監督微調（SFT）廣泛用於將新知識注入語言模型，但常會損害預訓練能力，如推理與通用領域表現。我們認為此遺忘現象源於人類或外部系統提供的微調目標偏離模型的自迴歸分布，迫使優化器模仿低機率令牌序列。為解決此問題，我們提出MixSD——一種無需外部教師的簡易分布對齊知識注入方法。MixSD並非基於固定目標進行訓練，而是透過動態混合基礎模型自身的兩個條件變量來建構監督信號：一個是觀察注入事實的專家條件變量，另一個是反映模型原始先驗的樸素條件變量。所產生的監督序列既保留事實學習信號，又顯著更接近基礎模型的分布。我們在兩個自建合成語料庫（用於控制環境下研究事實回憶與算術函數習得）以及開放域事實問答與知識編輯的既有基準上評估MixSD。跨越多種模型規模與設定，MixSD在記憶保留取捨上持續優於SFT與在策略自我蒸餾基線，能保留基礎模型高達100%的保留能力，同時維持近乎完美的訓練準確率，而標準SFT僅保留1%。我們進一步證明，MixSD在基礎模型下產生顯著更低負對數似然的監督目標，並減少沿費雪敏感參數方向的有害移動。這些結果表明，將監督信號與模型原生生成分布對齊，是減輕災難性遺忘的簡單有效知識注入原則。

MementoGUI：學習長時域GUI代理的自主多模態記憶控制
MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

May 18

ByZiyun Zeng, Hang Hua, Bocheng Zou, Mu Cai, Rogerio Feris, Jiebo Luo

近期基于GUI的代理在视觉定位和动作预测方面取得了显著进展，但在需要跨多个界面转换维护任务状态的长期任务中仍显脆弱。现有代理通常依赖原始历史回放或纯文本记忆，这要么因冗余截图淹没模型，要么丢弃未来决策所需的局部视觉证据。针对这些局限，我们提出MementoGUI——一种即插即用的代理记忆框架，通过为基于多模态大语言模型（MLLM）的GUI代理配备MementoCore（一种用于在线记忆选择、压缩和检索的学习型控制器）来增强其能力。MementoGUI将长期GUI控制问题重新定义为在线记忆控制问题：工作记忆通过文本摘要和感兴趣区域（ROI）级视觉证据，选择性保留任务相关的界面事件；而情景记忆则通过习得的相关性选择，检索可复用的历史轨迹。MementoCore将记忆控制模块化为专用算子，涵盖步骤处理、记忆压缩、情景写入和情景选择，从而在无需微调GUI代理主干的情况下实现即插即用的记忆增强。我们进一步开发了可扩展的数据整理流程，将计算机操作轨迹转化为记忆控制器训练数据；提出了MementoGUI-Bench基准，用于评估GUI代理在长期决策中的表现；并设计了基于MLLM的评价指标，用于语义动作匹配、任务进度和记忆一致性评估。在GUI-Odyssey、MM-Mind2Web和MementoGUI-Bench上的实验表明，MementoGUI相较于无历史、历史回放和纯文本记忆基线，始终能提升GUI代理的性能，且更强的MementoCore主干进一步强化了记忆增强型GUI控制。

FINESSE-Bench：大型语言模型金融領域知識與技術分析的分層基準測試套件
FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

May 14

ByDmitry Stanishevskii, Nini Kamkia, Alexey Khoroshilov, Dmitry Zmitrovich, Denis Kokosinskii, Zhirayr Hayrapetyan, Andrei Kalmykov

大型語言模型（LLMs）正日益廣泛應用於財務分析、報告生成、投資決策支援、風險管理、合規審查及專業培訓等領域。然而，針對其在金融領域專業能力的穩健評測仍不完整。目前廣泛使用的開放基準，如FinQA、ConvFinQA與TAT-QA，雖然在推動金融問答與數值推理方面發揮了重要作用，但它們主要聚焦於財務報告的問答任務，並未建立明確的專業難度層級。更廣泛的資源如FinanceBench、PIXIU、FinBen與FLaME，雖擴展了金融任務的覆蓋範圍，但如何評估從基礎知識到專家級金融推理的過渡能力，仍是未解難題。為此，我們提出FINESSE-Bench，這是一套由八個專業基準組成的評測套件，包含3,993道題目，用於對LLMs的金融能力進行分層評測。FINESSE-Bench融合了受專業認證考試啟發的題庫（類CFA一至三級、類CMT二級與類CFTe一級）、應用型交易任務集，以及俄語金融奧林匹克競賽基準。此設計可同時評估模型的領域廣度、難度遞增下的性能衰減、計算任務解決能力，以及模型在專業金融領域的行為表現。我們亦提出統一的評測協議，涵蓋選擇題、數值答案與簡短開放式作答，並基於「以LLM為裁判」的範式，為自由形式答案設計了自動評分機制。FINESSE-Bench旨在補充現有開放金融基準的不足，並作為對大型語言模型進行更具實質性專業金融能力評測的有效工具。

智能體市集：實現多重代理市場中的經濟對齊
Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces

May 17

BySeth Karten, Cameron Crow, Chi Jin

將大型語言模型（LLMs）部署為自主經濟代理，會引入超越個別能力失敗的系統性風險。隨著這些代理轉而直接與市場互動，它們的集體行為可能放大波動性，並在規模層面上掩蓋欺騙行為。我們提出「Agent Bazaar」——一個多代理模擬框架，用於評估「經濟對齊」（Economic Alignment），即代理系統維護市場穩定與完整性的能力。我們識別出兩種失敗模式：(1) B2C市場中的「演算法不穩定性」（The Crash），其中企業放大價格波動直至市場崩潰；(2) C2C市場中的「Sybil欺騙」（The Lemon Market），即單一欺騙性代理控制多個協調的賣家身份，以虛假清單淹沒市場，侵蝕信任與消費者福利。我們評估了前沿模型與開放權重模型在兩種情境下的表現，發現這些模型大多無法自我監管，且失敗的嚴重程度因模型而異，而非取決於模型規模。我們提出經濟對齊的約束機制——「穩定型企業」（Stabilizing Firms）與「懷疑型守護者」（Skeptical Guardians），這些機制能改善結果，但在更嚴峻的市場條件下仍顯脆弱。為填補此差距，我們使用自適應課程透過REINFORCE++訓練代理，產生了一個9B模型，其表現優於所有評估過的前沿與開放權重模型。我們提出「經濟對齊分數」（Economic Alignment Score, EAS）——一個由四個分量組成的標量指標，匯集了穩定性、完整性、福利與盈利能力，從而實現模型間的直接比較。我們的結果顯示，經濟對齊與通用能力是正交的，且可透過目標強化學習直接進行訓練。

DexHoldem：以靈巧具身系統進行德州撲克對局
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

May 18

ByFeng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

在真实灵巧硬件上评估具身系统，所需的不只是孤立的原始技能：智能体必须感知变化中的桌面场景，选择符合情境的动作，以灵巧手执行该动作，并让场景保持可应用于后续决策的状态。我们提出 DexHoldem，这是一个基于 ShadowHand 执行德州扑克灵巧操作的实际系统级基准测试。DexHoldem 提供了涵盖 14 种德州扑克操作原语的 1,470 组遥操作示范、一个标准化的物理策略基准，以及一个测试智能体能否恢复具身决策所需结构化游戏状态的智能体感知基准。在原始执行方面，π_{0.5} 获得最高的任务完成率（61.2%），而 π_{0.5} 与 π_0 在场景保护成功率上持平（47.5%）。在智能体感知方面，Opus 4.7 获得最佳严格问题级准确率（34.3%），GPT 5.5 则在平均字段级准确率上最优（66.8%），这揭示了孤立视觉子能力与完整路由相关状态恢复之间的差距。最后，我们通过三个案例研究实例化了完整的具身智能体循环，其中等待、恢复调度、请求人工帮助以及重复执行原语，揭示了封闭式部署中感知与策略误差如何累积。因此，DexHoldem 在同一物理设定下评估了灵巧桌面执行、智能体感知以及具身决策路由。项目页面：https://dexholdem.github.io/Dexholdem/。

咒語：自然語言作為多實體視頻世界模型的動作介面
Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models

May 18

ByShangwen Zhu, Qianyu Peng, Zhao Pu, Zhilei Shu, Xiangrui Ke, Zhaohu Xing, Zizhao Tong, Zeqing Wang, Xinyu Cui, Huangji Wang, Jian Zhao, Yeying Jin, Fan Cheng, Ruili Feng

現代交互式視頻世界模型已實現令人驚嘆的視覺保真度，但在細粒度多實體控制及跨實體、跨世界泛化方面仍存在不足。我們將此差距歸因於動作介面：標準控制協議（例如動畫ID、設備輸入、場景級描述）在設計時便將動作語義綁定至特定實體或引擎。我們提出以自然語言作為介面，釋放先前任何介面都無法達到的表現力，並介紹Incantation——首個具備每潛在幀（0.25秒）自然語言條件控制、支援同時多實體控制及超越任何固定渲染管線的概念級跨實體遷移的交互式視頻世界模型。我們將預訓練的雙向視頻主幹網路與幀局部文本交叉注意力相結合，並通過ODE初始化的自強制蒸餾搭配解耦RoPE的滑動KV緩存，實現即時長程流式處理。我們在跨實體遷移（89%對43%）及詞彙外提示（90%對0%）上超越動作索引基線，且我們的2步學生模型在480p解析度下維持19.7幀每秒，並在2小時滾動生成中保持穩定的FVD。我們進一步將相同的架構與訓練流程應用至《拳皇》，僅更改每個實體的動作詞彙槽。我們已在https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes發佈Incantation數據集的預覽子集，包含手動收集的《艾爾登法環》玩家-首領戰鬥片段及其結構化面向動作的元數據。更大規模的《艾爾登法環》與《拳皇》數據將隨完整項目一併發佈。

評估互動式AI代理中的認知年齡對齊
Evaluating Cognitive Age Alignment in Interactive AI Agents

May 18

ByYifan Shen, Jiawen Zhang, Jian Xu, Junho Kim, Ismini Lourentzou, Xu Cao, Meihuan Huang

尽管自主型AI及其核心的多模态大语言模型（MLLMs）在从日常生活到前沿科学研究等领域中，已在语言与视觉推理方面展现出显著潜力，但人工智能与人类智能之间仍存在深刻差距。即便集成了强大工具与先进MLLMs，当前最先进的AI智能体仍频繁在儿童能轻松解决的基础性、看似简单的任务上失败。受韦氏儿童智力量表（WISC）启发，我们提出ChildAgentEval——首个基于心理测量学的交互式基准，用于评估基于MLLM的智能体在认知年龄上的对齐程度。ChildAgentEval系统性地将各类基于MLLM的交互式智能体的推理表现与特定年龄段的人类发展阶段进行对比，揭示了当前自主型AI系统在哪些方面能够或无法模拟特定年龄段的认知行为。

可操作的世界表徵
Actionable World Representation

May 18

ByKunqi Xu, Jitao Li, Jianglong Ye, Tianshu Tang, Isabella Liu, Sifei Liu, Xueyan Zou

受大型語言模型中湧現出泛化人類智慧的行為啟發，研究社群正致力於在世界模型中探索類似的湧現能力，尤其側重於對物理世界的建模。在物理世界模型的範疇內，物體是構成物理現實的基本單元。從人類到電腦，我們幾乎所有互動的對象都是物體。這些物體鮮少處於靜態，而是具備可操作性的實體，其狀態由內在屬性決定。當前方法雖透過影片生成或動態場景重建來處理物體動作狀態，卻未能以統一且具原則性的方式明確建模此基礎元素，以建立可操作的物體表徵。我們提出WorldString——一種神經網路架構，能透過直接從點雲或RGB-D影片串流中學習，來建模真實世界物體的狀態流形。作為通用的數位孿生，它成為物理世界模型的基礎建構單元；因此我們將其命名為WorldString。值得一提的是，其完全可微分的結構，能無縫整合未來的策略學習與神經動力學應用。

SafeDiffusion-R1：用於安全擴散後訓練的線上獎勵引導
SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

May 18

ByKomal Kumar, Ankan Deria, Abhishek Basu, Fahad Shamshad, Hisham Cholakkal, Karthik Nandakumar

擴散模型在移除預訓練期間學習到的不安全內容方面已被廣泛研究。現有方法需要昂貴的監督資料，包括不安全文本與安全影像的真實配對，或負向/正向影像對，使得這些方法難以規模化。此外，離線強化學習與監督式微調方法（透過離線生成合成資料）會遭受災難性遺忘，導致生成品質下降。我們提出一個新穎的線上強化學習框架，透過在負向與正向文字提示上應用群體相對策略優化（GRPO）進行後訓練，同時解決資料稀缺與模型退化問題。為了消除微調專用的安全/不安全獎勵模型的需求，我們引入一種引導獎勵機制，利用CLIP嵌入的固有屬性：在嵌入空間中將文字表示引導至正向安全方向，並遠離負向方向。我們的在線策略方法使模型能夠從多樣化的提示（包括明確的不安全內容）中學習，而不會發生災難性遺忘。大量實驗證明，我們的方法將不當內容從48.9%（SD v1.4）降至18.07%，裸體檢測次數從646次降至15次，同時在GenEval上將合成構成品質從42.08%提升至47.83%。值得注意的是，這些安全效益可泛化至七類危害範疇中的域外不安全提示，在無需監督配對資料或獎勵調校的情況下達到最先進性能。Github: https://github.com/MAXNORM8650/SafeDiffusion-R1。

A2RBench：一種用於可形式驗證抽象推理基準生成的自動化範式
A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

May 17

ByQingchuan Ma, Yuexiao Ma, Yongkang Xie, Tianyu Xie, Xiawu Zheng, Rongrong Ji

抽象推理能力反映了大型語言模型（LLM）提取並應用抽象規則的智慧與泛化能力。然而，準確衡量此能力仍具挑戰：現有基準測試若非依賴昂貴的人工標註（限制其規模），便可能測量到的是記憶而非真正的推理。為解決此問題，我們提出名為A2RBench的自動化流程，涵蓋生成、擴展、評估與分析。具體而言，在生成階段，LLM建立需真正推理的多樣化任務；在擴展階段，LLM重複使用已驗證規則並擴展新輸入空間以產生任務變體，實現規模化。然而，此過程可能引發幻覺。為消除此問題，我們進一步建立理論框架，證明程式化驗證——測試逆向操作是否能完美還原正向操作（循環一致性）——可保證唯一解。透過對主流LLM的廣泛評估，我們發現：（1）當前LLM在抽象推理上存在根本性缺陷，頂尖模型在代表性子集上表現顯著不如人類（39.8% vs. 68.5%）。（2）當前LLM在生成的三維任務複雜度上遠不及二維與一維任務，揭示其對高維任務的理解不足。（3）違反直覺的是，資訊複雜度較高的輸入反而能簡化推理過程。

OSCAR：用於2位元KV快取量化的離線頻譜協方差感知旋轉方法
OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

May 18

ByZhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

INT2 KV-cache 量化對於長上下文的大型語言模型服務頗具吸引力，但要同時實現高準確度與可部署性仍十分困難。簡單的旋轉（如 Hadamard 變換）能減少離群值，但由於未與下游注意力對齊，在 INT2 下仍會導致性能下降。我們提出 OSCAR，一種超低位元 KV 快取量化方法，該方法能離線估計注意力感知的共變異數結構，並據此推導出固定的旋轉與裁剪閾值來進行量化。如此一來，它使 KV 量化與注意力實際使用的共變異數結構對齊。更重要的是，我們不僅提供理論論證，還開發了完整的可部署 OSCAR 系統，內建自訂的 INT2 注意力核心，且與分頁 KV 快取服務及融合核心管線相容，能無縫整合至現代 LLM 服務框架（如 SGLang 與 vLLM）中。我們在近期推出的推理模型上進行評估，這些模型的推理軌跡長達 32k 個 token，涵蓋 5 項任務。在 Qwen3-4B-Thinking-2507 與 Qwen3-8B 上，OSCAR 將與 BF16 的準確度差距分別縮小至 3.78 與 1.42 個百分點，而單純旋轉的 INT2 方法精確度幾乎歸零。我們進一步將 OSCAR 擴展至 Qwen3-32B 與 GLM-4.7（358B 參數），其表現仍與 BF16 相當。在長上下文任務（RULER-NIAH，最長 128K）中，OSCAR 在兩個 Qwen3 模型上均保持穩健，而單純旋轉的 INT2 方法則完全失效。從系統層面看，OSCAR 將 KV 快取記憶體減少約 8 倍，在相同記憶體預算下於大批次大小時吞吐量提升高達 7 倍，且因降低記憶體頻寬開銷，相較 BF16 可將批次大小為 1 的解碼加速至高達 3 倍。

AgentKernelArena：具泛化意識的GPU核心優化代理基準測試
AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

May 16

BySharareh Younesian, Wenwen Ouyang, Sina Rafati, Mehdi Rezagholizadeh, Sharon Zhou, Ji Liu, Yue Liu, Yuchen Yang, Hao Li, Ziqiong Liu, Dong Li, Vikram Appia, Zhenyu Gu, Emad Barsoum

GPU核心優化對高效能深度學習系統日益關鍵，但撰寫高效核心仍需深厚的底層專業知識。近期AI編碼代理可反覆讀取程式碼、呼叫編譯器與分析工具、並逐步改善實作，然而現有核心基準測試僅評估單次大型語言模型呼叫，而非完整的代理工作流程，且均未包含核心對核心優化與未見配置泛化測試。我們提出AgentKernelArena，一個用於衡量AI編碼代理在GPU核心優化表現的開放原始碼基準測試。該基準包含196項任務，涵蓋HIP到HIP優化、Triton到Triton優化，以及PyTorch到HIP轉譯，並在隔離工作區中透過閘控編譯、正確性與效能檢查、集中計分，以及一項測試優化是否可轉移至代理未曾見過之輸入配置的未見配置泛化協定，來評估完整的代理工作流程。在包括Cursor Agent、Claude Code與Codex Agent在內的生產環境代理中，我們發現多數任務類別近乎完美的編譯率與高正確率，最強配置在PyTorch到HIP、HIP到HIP與Triton到Triton任務上分別達到平均6.89倍、6.69倍與2.13倍加速。未見配置評估顯示，HIP到HIP與Triton到Triton優化大致可遷移至未見輸入形狀，而PyTorch到HIP則出現顯著的正確性下降，顯示從頭生成核心的代理經常硬編碼與形狀相關的假設。AgentKernelArena被設計為一個模組化、可擴展的架構，用於對不同代理、任務與硬體目標進行嚴謹的代理式GPU核心優化評估。

SNLP：透過結構化牛頓修正的層級並行推論
SNLP: Layer-Parallel Inference via Structured Newton Corrections

May 18

ByLigong Han, Kai Xu, Hao Wang, Akash Srivastava

自迴歸語言模型需要依序執行Transformer層，這會產生無法透過傳統張量並行或管線並行消除的延遲瓶頸。我們研究是否可以將隱藏狀態在各層間的軌跡視為非線性殘差方程的解，並以並行牛頓式更新來求解，從而放鬆這種逐層依賴關係。此觀點雖具理論基礎，但精確的牛頓修正需要昂貴的雅可比向量乘積，而樸素的定點疊代在已訓練的Transformer上則不穩定。我們提出結構化牛頓層平行（SNLP），這是一個訓練與推論框架，以廉價的、由架構誘導的替代動態取代精確的層雅可比矩陣。在殘差Transformer中，此方法衍生出恆等牛頓（IDN），其中修正項簡化為類似前綴和的更新；而在mHC風格的架構中，HC牛頓（HCN）則利用模型的殘差混合矩陣。我們進一步引入具SNLP意識的正則化，訓練模型使一次或少數幾次結構化牛頓疊代能夠準確近似序列前向傳播。在nanochat規模的Transformer上的實驗顯示，SNLP正則化可提升層平行兼容性，並能改善標準的序列困惑度，將基準PPL降低4.7%至23.4%。在推論時，SNLP結合層融合與分塊分解可實現實際的運行時間加速：在0.5B的Nanochat模型上，達到2.3倍的加速，同時仍將PPL改善6.1%。這些結果表明，層平行推論不僅是對序列執行的一種數值近似，還可作為一種有用的求解器誘導推論偏差。我們也指出了其局限性：現成的預訓練模型較不適用此程序，且精確收斂會回復到序列計算，並未提供單調的推論時間擴展。

幾何相變實現海馬體極端記憶容量
Geometric Phase Transition Enables Extreme Hippocampal Memory Capacity

May 16

ByPrashant C. Raju

尽管相似的硬件限制，记忆系统仍能存储数量迥异的信息。在此，我们揭示出卓越的空间记忆源于海马群体几何结构的离散性硬化——一种从无序到晶态集体编码的转变。通过比较囤食的山雀与非囤食的斑胸草雀，我们发现囤食型海马维持着拓扑刚性的"晶态"几何结构，其几何稳定性显著更高（Shesha指标 0.245 vs 0.166），时间相干性近乎翻倍（Shesha指标 0.393 vs 0.209），而非囤食型海马则类似于无序的"雾态"。这种稳定性由协同性回路动力学主动构建：兴奋性神经元形成空间骨架，而抑制性群体贡献正交去相关——一种兴奋性与抑制性群体占据互不重叠的表征子空间的回路模式。通过Valiant稳定内存分配器模型（预测每个记忆由专属神经元集群支撑）进行的双重分离验证，确认该优势源于连续拓扑组织而非离散神经元分配：囤食网络的裂半分配可靠性趋近于零，尽管其几何结构具有优越性。跨越10,000种配置的计算建模揭示，拓扑刚性是规模扩展的数学前提：晶态编码在超M=1k个位置时仍能维持高保真度读取，而雾态编码在M=10以下即告失效，容量优势超过100倍。这种容量需要169倍的表征冗余——一种稳定流形对抗生物噪声的"几何代价"。这些结果确立了几何稳定性作为生物记忆候选组织原理的地位：进化实现高容量记忆并非通过增殖神经元，而是通过重塑神经编码本身的几何结构。

優化器設計的對稱兼容原則：嵌入、LM頭、SwiGLU多層感知機與MoE路由器
Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

May 18

ByTim Tsz-Kit Lau, Weijie Su

在深度学习实践中，长期存在一种引人注目的几何不一致性。现代神经网络架构天然展现出丰富的对称性与等变性，而Adam及其变体等主流优化器本质上是坐标方向操作的，导致其无法尊重参数空间的等变结构。我们通过引入一种与对称性兼容的优化器设计原则来解决这一不一致性：梯度更新规则应在作用于相应权重块的对称群下保持等变性。遵循这一原则，我们首先为通用矩阵层的双正交等变更新提供了统一视角，这些更新已被随机谱下降法、Muon、Scion及极坐标梯度方法所采用。更重要的是，通过从正交群转向置换对称与共享平移对称，我们推导出适用于参数块的对称性兼容优化器，这些参数块的对称性不同于通用矩阵层：嵌入矩阵与LM头矩阵、SwiGLU MLP投影矩阵以及MoE路由器矩阵。这些构造包括单侧谱更新、行范数更新、混合行范数/谱更新、行感知更新、列感知更新、中心化行范数更新及左谱更新。这构成了一种端到端的逐层优化器栈，其中每个主要的矩阵值参数类都被分配了一种更新规则，其等变性与该参数类的对称群相匹配。我们通过在密集与稀疏MoE语言模型上的预训练实验验证了这一原则，实验模型包括Qwen3-0.6B风格、Gemma 3 1B风格、OLMoE-1B-7B风格以及缩小版的gpt-oss架构。在这些实验中，对称性兼容的更新相比相应的AdamW更新，始终能改善最终的验证损失，并在若干情况下提升训练稳定性。

E-PMQ：採用合併權重錨定的專家引導合併後量化
E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

May 16

ByWenjun Wang, Yanggan Gu, Shuo Cai, Yuanyi Wang, Pengkai Wang, Jianmin Wu, Hongxia Yang

低资源部署限制使得模型量化成为在保持性能的同时部署神经网络的必要手段。与此同时，模型融合已成为一种日益实用的低资源策略，能够将多个任务或领域专精的专家模型整合为单一模型，而无需联合训练或多模型服务。通过将多个专家模型融合至一个低比特模型中，量化与模型融合共同实现了高效的低资源部署流程。我们将这一设定定义为融合后量化（Post-Merge Quantization, PMQ）。研究表明，直接对融合模型应用训练后量化（Post-Training Quantization, PTQ）并不可靠，因为两种不同的偏差会耦合在一起：由低比特重建引入的量化偏差，以及源自模型融合的专家相对融合偏差。为减轻这些偏差，我们提出E-PMQ，一种专家引导的PMQ框架。该框架利用源专家权重，在逐层校准过程中提供专家引导的输出目标，并结合融合权重锚定以稳定校准过程，保留融合模型的整合行为。在CLIP-ViT-B/32的八任务融合场景中，E-PMQ在任务算术（Task Arithmetic）方法下将4比特GPTQ从65.0%提升至73.6%，在TIES-Merging方法下从69.1%提升至74.8%。在更具挑战性的设定下，E-PMQ在20任务的CLIP-ViT-L/14上，将GPTQ从34.8%提升至76.7%；在FLAN-T5-base的GLUE任务上，从78.26%提升至83.34%。这些结果表明，E-PMQ能够实现有效的融合后量化与低比特部署。

審核多模態大型語言模型評分者：臨床序數評分中的集中趨勢偏誤
Auditing Multimodal LLM Raters: Central Tendency Bias in Clinical Ordinal Scoring

May 11

ByJiaqing Zhang, Sandeep Elluri, Bhanu Cherukuvada, Yonah Joffe, Jessica Sena, Miguel Contreras, Scott Siegel, Subhash Nerella, Catherine Price, Parisa Rashidi

多模態大型語言模型（LLM）在臨床環境中作為自動化評分工具的應用日益受到關注，但其在序數臨床量表上的評分行為仍缺乏充分理解。我們以兩個公開資料集為基礎，採用Shulman評分量表對時鐘繪製測試（CDT）影像進行評分，並將三種前沿LLM系列與監督式深度學習模型進行基準比較。儘管經過完整微調的視覺變換器（Vision Transformers）在校準表現上最佳（平均絕對誤差0.52，誤差在1分以內之準確率91%），零樣本LLM在容許誤差的評分一致性上仍具競爭力（GPT-5的平均絕對誤差0.67，誤差在1分以內之準確率92%），儘管其絕對誤差較高。然而，逐分數分析顯示，所有三個LLM系列均呈現顯著的「中心趨勢效應」（系統性端點壓縮）：預測值系統性地向量表中間值壓縮，導致低分端（0至1分）過度預測，高分端（5至4分）預測不足。此效應對臨床最關鍵的極端分數影響尤為明顯，而這些分數的正確與否對認知障礙篩檢決策最具影響力。針對性消融實驗顯示，無論是使用涵蓋完整分數範圍的少量樣本範例，或是在提示詞中移除臨床術語，均無法消除此效應。我們的研究將「LLM作為評審者」的偏誤文獻從自然語言處理評估擴展至臨床評估領域，並強調在將基於LLM的評估工具部署於高風險篩檢流程前，需進行具校準意識的評估與事後校正。

監測內在獨白：探針軌跡揭示推理動態
Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

May 18

ByMaciej Chrabąszcz, Aleksander Szymczyk, Marcin Sendera, Tomasz Trzciński, Sebastian Cygert

大型推理模型（LRMs）透過其思維鏈（Chain of Thought, CoT）推理，為安全監控帶來了新的契機。然而，CoT並非始終忠於模型的最終輸出，這削弱了其作為監控工具的可靠性。為解決此問題，我們研究LRM的隱藏表徵，以判斷能否從提示詞與CoT表徵中預測未來行為。透過在每個生成的詞元上評估探測器，我們建構出一條探測軌跡，即某個概念機率在推理過程中的連續演化。我們發現，相較於單次靜態預測，從完整軌跡上觀察時，未來模型行為更易於區分。為描述這些時間動態，我們提取了捕捉波動性、趨勢與穩態行為的信號處理特徵，從而顯著提升未來模型狀態的分離度。我們亦提出兩項方法學洞見：第一，基於模板的訓練資料可達到與動態生成模型回應近乎相當的表現，無需耗費高昂的初始推理與標註成本；第二，池化操作的選擇至關重要：平均池化與最後詞元方法會使效能降至接近隨機，而最大池化則能達到高達95%的AUROC，並產生穩定的探測軌跡。透過在安全與數學領域的四個資料集及四個推理模型上進行實驗，我們證明了軌跡特徵能編碼任務特定的動態特性，從而改善結果的可分離性。這些發現將探測軌跡確立為監控LRM行為的互補框架。警告：本文包含潛在有害內容。

SCICONVBENCH：在計算科學中針對多輪澄清任務制定的大語言模型基準測試
SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

May 18

ByNithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan

大型語言模型（LLMs）正日益被部署為科學人工智慧助手，而越來越多的基準測試評估它們在知識檢索、推理、程式碼生成和工具使用方面的能力。然而，這些評估通常假設科學問題已明確界定，而實際的科學協助往往始於一個未明確界定的使用者請求，必須透過對話進行細化，之後才能可靠地進行計算、分析或實驗。我們推出 SCICONVBENCH，這是一個針對四個計算科學問題領域（流體力學、固體力學、材料科學和偏微分方程）中科學任務形成的多輪澄清基準測試。SCICONVBENCH 針對兩種互補能力：引導缺失資訊（消歧）以及檢測並修正包含內部矛盾資訊的錯誤請求（不一致性解決）。我們的基準測試將結構化任務本體論與基於評分標準的評估框架相結合，能夠系統地從三個維度衡量 LLM 的表現：澄清行為、對話基礎建立以及最終規格忠實度。當前的尖端模型在不一致性解決方面表現相對較好，但即使是最佳模型也僅能解決流體力學中 52.7% 的消歧案例。我們進一步發現，尖端 LLM 經常做出隱含假設，並執行未基於使用者對話的隱式規格修正。SCICONVBENCH 為評估可靠計算科學助手所需的上游對話推理奠定了基礎。程式碼和數據可在 https://github.com/csml-rpi/SciConvBench 取得。

AR-VLA：視覺-語言-行動模型之真正自迴歸行動專家
AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

May 11

ByYutong Hu, Jan-Nico Zaech, Nikolay Nikolov, Yuanqi Yao, Sombit Dey, Giuliano Albanese, Renaud Detry, Luc Van Gool, Danda Paudel

我们提出了一种独立的自回归（AR）动作专家模型，该模型在可刷新的视觉-语言前缀条件下，将动作生成为连续的因果序列。与现有的视觉-语言-动作（VLA）模型和扩散策略不同——这些模型在每次新观测时重置时序上下文并以反应性方式预测动作——我们的动作专家通过长期记忆维护自身历史，具有内在的上下文感知能力。这种结构解决了快速控制与慢速推理之间的频率不匹配问题，实现了运动句法的高效独立预训练以及与重型感知骨干的模块化集成，从而自然地确保跨帧的时空一致动作生成。为了同步这些异步的混合V-L-A模态，我们利用一种重新锚定机制，在训练和推理过程中从数学上处理感知滞后问题。在仿真和真实机器人操作任务上的实验表明，所提出的方法能够有效替代专家策略和通用策略中传统的基于块的动作头。AR-VLA表现出优越的历史感知能力和显著更平滑的动作轨迹，同时维持或超越了最先进反应性VLA的任务成功率。总体而言，我们的工作引入了一种可扩展、上下文感知的动作生成模式，为训练有效的机器人策略提供了稳健的结构基础。代码和视频可在 https://arvla.insait.ai 获取。

GRASP：學習在多人非語言互動中奠定社交推理的基礎
GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

May 15

ByJunho Kim, Xu Cao, Houze Yang, Bikram Boote, Ana Jojic, Fiona Ryan, Bolin Lai, Sangmin Lee, James M. Rehg

理解社交互動需要推論微妙非語言線索，然而當前多模態大型語言模型（MLLMs）在多人物影片中常無法正確辨識互動對象。我們提出GRASP，一個大規模社交推理資料集，將高層次社交問答與細粒度的凝視與指示手勢事件連結。GRASP包含46K部影片（共749小時）中的290K組問答對，依據涵蓋凝視、手勢及凝視-手勢聯合推理的16類分類體系組織，並搭配GRASP-Bench進行評估。與聚焦孤立線索或高層次社交問答的現有資源不同，GRASP從身份一致的凝視軌跡、指示手勢及其聯合組成的社交事件構建問題。此外，我們提出社會基礎獎勵（SGR），這是一種學習訊號，利用這些社交事件鼓勵模型對每個互動中的參與者進行推理。實驗顯示，SGR在提升GRASP-Bench表現的同時，亦能維持相關社交影片問答基準的零樣本性能。

TopoPrimer：預測模型中缺失的拓撲上下文
TopoPrimer: The Missing Topological Context in Forecasting Models

May 14

ByZara Zetlin, Kayhan Moharreri, Maria Safi

我們引入了 TopoPrimer，這是一個將序列群體的全局拓撲結構作為任何預測模型明確輸入的框架。TopoPrimer 在多個領域提升了預測準確性，穩定了季節性需求高峰下的預測，並縮小了冷啟動差距。透過持續同調與譜層坐標，每個領域只需預先計算一次，TopoPrimer 可針對完全訓練的模型以每個 token 的方式部署，同時也作為預訓練主幹的輕量級適配器。在這兩個組件中，譜層坐標是提升準確性的主要驅動力。在基於 Chronos 和 TimesFM 的四個公開基準測試中，TopoPrimer 持續提升了預測準確性，在 ECL 資料集上的 MSE 提升高達 7.3%。拓撲優勢在零樣本與微調主幹上以近乎相同的幅度持續存在，這表明拓撲與每個序列的訓練捕捉了互補的信號。在困難場景下，其增益尤為顯著。在季節性需求高峰時，傳統與零樣本模型性能下降高達 50%，而 TopoPrimer 則保持在 10% 以內。在缺乏項目歷史記錄的冷啟動情況下，TopoPrimer 相比無拓撲的基線降低了 27% 的 MAE。