HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

62 papers found

GrepSeek：訓練能直接與語料庫互動的搜尋代理
GrepSeek: Training Search Agents for Direct Corpus Interaction

May 28

ByAlireza Salemi, Chang Zeng, Atharva Nijasure, Jui-Hui Chung, Razieh Rahimi, Fernando Diaz, Hamed Zamani

大型語言模型（LLM）搜尋代理已展現出透過多輪推理與資訊檢索來處理知識密集型語言任務的強大潛力。現有系統大多使用檢索器來存取資訊，該檢索器接收關鍵詞或自然語言查詢，並根據預先計算的文件表示索引，回傳一份排序後的文件清單。在本研究中，我們探索了一個互補觀點：搜尋代理將語料庫本身視為搜尋環境，並透過執行可執行的 shell 命令來尋找證據。我們提出 GrepSeek，這是一個最佳化的直接語料庫互動（DCI）搜尋代理，能夠訓練一個輕量化的搜尋代理，從大型文字語料庫中尋找、篩選並組合證據。為了解決直接在大型語料庫上使用強化學習進行行為學習時的不穩定性，我們提出了一個兩階段訓練流程。首先，我們使用具答案感知能力的 Tutor 與不具答案感知能力的 Planner 來建構一個冷啟動資料集，以產生經過驗證且具因果基礎的搜尋軌跡。其次，我們利用群體相對策略最佳化（GRPO）來精煉初始化的策略，使代理能透過直接與語料庫互動，改善其任務導向的搜尋行為。為使 DCI 在大規模應用中可行，我們進一步採用了一種保留語義的分片平行執行引擎，該引擎可將 Shell 基礎的檢索加速高達 7.6 倍，同時保持與 Shell 命令循序執行時的字元級完全一致。在七個開放域問答基準測試上的實驗結果顯示，GrepSeek 在整體詞元層級的 F1 分數與完全匹配（Exact Match）上表現最佳。我們的分析也指出了純粹詞彙互動在面對表面形式變化較大的查詢時的限制，從而建議 DCI 可作為搜尋代理在現實世界中互補現有檢索典範的一種實用且具競爭力的方法。

COLLEAGUE.SKILL：透過專家知識蒸餾實現自動化AI技能生成
COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

May 29

ByTianyi Zhou, Dongrui Liu, Leitao Yuan, Jing Shao, Xia Hu

大语言模型智能体越来越被期望不仅能完成孤立的任务，还能承载人类专业知识、判断力和互动风格的有限表征。构建此类基于角色的智能体仍然困难，因为与个人或角色相关的可操作知识通常嵌入在异质痕迹中，而非以清晰的指令形式存在。现有的记忆与人设系统虽能捕获这些证据的片段，而技能框架则提供了可移植的封装格式；然而，目前尚无一个端到端的工作流来将这些痕迹提炼为可审查、可修正且可被智能体使用的技能。我们提出了一种自动化痕迹到技能的提炼系统，通过专家知识蒸馏生成基于角色的AI技能。给定目标人物或角色的素材，COLLEAGUE.SKILL会生成一个带版本的技能包，包含两个协同轨道：一个能力轨道，涵盖实践、心理模型和决策启发式；另一个是有界行为轨道，涵盖沟通风格、交互规则和修正历史。该技能包可被审查、调用、通过自然语言反馈进行更新、回滚、跨智能体主机安装，并可选择性地进行受控分发。我们描述了开源系统中实现的制品契约、生成工作流、修正生命周期、部署界面和领域预设。截至撰写时，公共仓库已获得约18.5k颗GitHub星标；技能展示列表包含来自165位贡献者的215个技能，各技能卡累计获得超过10万颗星标。该系统展示了如何将基于角色的技能表示为可移植、可修正的包，而非不透明的提示或隐藏的记忆。

用於同策略蒸餾的信賴區域行為融合
Trust-Region Behavior Blending for On-Policy Distillation

May 29

ByDaniil Plyusov, Alexey Gorbatovski, Alexey Malakhov, Nikita Balagansky, Boris Shaposhnikov, Daria Korotyshova, Daniil Gavrilov

在線策略蒸餾（OPD）讓學生模型以其自身策略取樣的前綴進行訓練，同時與更強老師模型的行為對齊。這解決了離線蒸餾中的前綴不匹配問題，但早期的學生模型展開仍可能效果不佳，使得老師監督作用在薄弱或低品質的前綴上。我們提出信任區域行為混合（Trust-Region behavior Blending, TRB），這是一種預熱方法，在學生為中心的KL信任區域內，將早期展開策略替換為最接近老師的行為策略，同時保持每個前綴的逆KL OPD損失不變。KL預算會逐步退火至零，因此在預熱之後訓練會回歸純粹的學生模型展開。在兩個數學推理蒸餾設定中，TRB在比較方法中達到了最強的平均表現。

無瓶頸統一多模態模型的表徵強制
Representation Forcing for Bottleneck-Free Unified Multimodal Models

May 29

ByYuqing Wang, Zhijie Lin, Ceyuan Yang, Yang Zhao, Fei Xiao, Hao He, Qi Zhao, Zihan Ding, Fuyun Wang, Shuai Wang, Youliang Zhang, Haoqi Fan, Xihui Liu

统一多模态模型旨在以单一模型处理感知与生成任务。然而现有的统一多模态模型仍依赖冻结的、独立预训练的变分自编码器（VAE）进行图像生成，这构成了结构瓶颈。若直接移除该模块，模型需从原始像素中同时学习高层结构与低层细节，从而产生质量差距。本文提出表征强制（RF）技术，通过将表征预测内化为模型原生能力来弥合这一差距。具体而言，RF强制解码器在生成像素之前，以自回归方式将视觉表征作为中间令牌进行预测；随后这些令牌保留在上下文中，引导同一主干网络内的像素扩散过程。通过将表征从感知输出转变为生成目标，RF消除了对外部生成潜在空间的依赖。我们发现RF对理解与生成任务均有助益。在图像生成方面，采用RF的像素空间模型达到了基于VAE的最先进统一模型的性能水平。在图像理解方面，像素空间RF普遍优于基于VAE的变体。这些结果共同为构建无瓶颈的端到端统一多模态模型迈出了有效一步。

Mellum2技術報告
Mellum2 Technical Report

May 29

ByMarko Kojic, Ivan Bondyrev, Aral de Moor, Joseph Shtok, Petr Borovlev, Kseniia Lysaniuk, Madeeswaran Kannan, Ivan Dolgov, Nikita Pavlichenko

我們提出 Mellum 2，這是一個開放權重的 12B 參數混合專家（MoE）語言模型，每個 token 僅有 2.5B 活躍參數。Mellum 2 是一款通用型語言模型，專精於軟體工程領域，涵蓋程式碼生成與編輯、除錯、多步驟推理、工具使用與函式呼叫、自主編碼以及對話式程式設計輔助，它是先前專注於補全的 4B 密集參數 Mellum 模型的後繼者。其架構基於混合專家模型（64 個專家，8 個活躍），並結合了分組查詢注意力（4 個 KV 頭）、每四層中有三層採用滑動視窗注意力，以及一個多重 token 預測頭——該預測頭同時作為輔助預訓練目標和投機解碼的內建草稿模型；每項設計選擇均透過消融實驗驗證，並以在商用 GPU 上的推理效率作為設計約束條件。預訓練過程歷時約 10.6 兆 token，採用三階段課程學習策略，逐步將資料混合從多樣化網路資料轉向精選程式碼與數學內容，並透過 Muon 優化器搭配 FP8 混合精度以及 Warmup-Hold-Decay 學習率排程（線性衰減至零）進行優化。預訓練基座透過層級選擇性 YaRN 擴展至 128K 上下文視窗，隨後分兩階段進行後訓練（監督式微調接續 RLVR），最終釋出兩種變體：直接回答的 Instruct 模型，以及在最終答案前輸出顯式推理鏈的 Thinking 模型。在程式碼生成、數學與推理、工具使用、知識以及安全基準測試中，Mellum 2 在每個 token 的運算量相當於 2.5B 密集模型的情況下，與 4B 至 14B 參數範圍內的開放權重基線模型表現相當。我們以 Apache 2.0 授權釋出基礎模型、指令模型與思考模型檢查點，並附上這份關於架構決策、資料管道及訓練方案的技術報告。

SwanVoice：面向獨白與對話的表現力豐富長篇零樣本語音合成
SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

May 29

ByRuiqi Li, Yu Zhang, Changhao Pan, Ke Lei, Xiang Yin, Cheng Yang

零樣本文字轉語音（TTS）在單一說話者合成方面已有顯著進步，但具表現力的長篇多人對話仍具挑戰性。常見的應對方式是使用獨白TTS模型合成每個說話輪次，再將輸出拼接起來。這種方法會增加推論成本，且常破壞跨輪次的聲學一致性、對話連貫性與情感連續性。近期的對話TTS系統已開始針對此情境進行改良，但仍難以同時維持表現力的連貫性、可控的說話者切換以及獨白品質。我們提出SwanData-Speech與SwanVoice。SwanData-Speech從現實音訊中建構獨白與對話語料庫，利用Swan強制對齊器（Swan Forced Aligner）進行停頓感知的字級對齊，並以RobustMegaTTS3處理發音困難的案例。基於這些資料，SwanVoice是一個支援1至4位說話者的零樣本TTS模型，結合25 Hz VAE、搭配停頓感知符號與拼音替代的純文字條件輸入，以及具說話者輪次條件的流匹配DiT。訓練從獨白語音開始，經混合資料與真實對話資料，再使用擴散NFT後訓練（DiffusionNFT post-training），搭配音節級與說話者相似度獎勵。在SwanBench-Speech上，SwanVoice在獨白與對話設定中，於豐富性與層次評分上均優於所有評估的開源基準模型，但內容準確度仍是主要限制。語音示範可於 https://swanaigc.github.io//#swanvoice 取得。

LongTraceRL：基於評分獎勵從搜索代理軌跡中學習長上下文推理
LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

May 29

ByNianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

長上下文推理仍然是大型語言模型面臨的核心挑戰，這些模型經常無法在大量干擾內容中定位並整合關鍵資訊。基於可驗證獎勵的強化學習（RLVR）在此任務中展現出潛力，然而現有方法受限於低混淆度的干擾項以及僅有結果獎勵的稀疏信號，無法對中間推理步驟進行監督。為解決這些問題，我們提出LongTraceRL。在資料建構方面，我們透過知識圖譜隨機遊走生成多跳問題，並利用搜尋代理軌跡建立分層干擾項：代理讀取但未引用的文檔（高混淆度）以及出現在搜尋結果中但從未被開啟的文檔（低混淆度），產生的訓練上下文遠比隨機抽樣或單次搜尋所建構的更具挑戰性。在獎勵設計方面，我們提出基於細則的獎勵，利用每條推理鏈上的黃金實體作為細粒度的實體層級過程監督。此細則獎勵僅應用於最終答案正確的回應（僅正向策略），區分正確回應間的推理品質，並防止獎勵駭客行為。在三個推理LLM（4B-30B）上進行的五項長上下文基準測試實驗表明，LongTraceRL持續優於強基線，並鼓勵全面、基於證據的推理。程式碼、資料集和模型可在https://github.com/THU-KEG/LongTraceRL取得。

Function2Scene：基於功能規格的3D室內場景佈局
Function2Scene: 3D Indoor Scene Layout from Functional Specifications

May 29

ByRuiqi Wang, Qimin Chen, Daniel Ritchie, Angel X. Chang, Manolis Savva, Kai Wang, Hao Zhang

目前大多數文本驅動的3D室內場景合成方法是根據以物體為中心的提示來生成房間，關注的是該擺放什麼家具，而非空間如何被使用。然而，在真實的室內設計中，佈局的優劣取決於其是否能滿足使用者的需求，例如他們的活動及身體需求。我們提出Function2Scene框架，能根據功能規格生成3D室內佈局，這些規格是以自然語言撰寫的設計摘要，描述誰將使用該房間以及他們需要在該空間做什麼。給定這樣的規格後，我們的系統會解析住户的角色畫像與活動，從涵蓋空間、人體工學、活動及環境考量等17項標準的分類系統中，推導出一組自訂的功能設計約束，並用這些約束來引導佈局生成。不同於依賴大型語言模型直接產出最終場景，Function2Scene透過工具增強的檢查與修復迴圈，結合幾何量測、基於大型語言模型的脈絡推理及基於視覺語言模型的視覺評估，進行反覆評估與改進。在30個由專業人士撰寫的室內設計案例實驗中，Function2Scene產生的佈局比近期基於大型語言模型的場景合成基準更能滿足功能需求，我們的結果在94.3%的成對比較中獲得偏好。我們的工作將文本驅動的室內場景合成，從擺放合理物體，重新定義為設計支援人類使用的空間。

GGT-100K：面向可泛化真實世界影像復原的生成式真實數據
GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration

May 29

ByXiangtao Kong, Jixin Zhao, Lingchen Sun, Rongyuan Wu, Lei Zhang

真實世界影像修復（IR）的瓶頸在於高品質成對訓練資料的稀缺。合成資料集雖數量龐大，但常無法模擬真實世界的退化現象；而真實世界的成對資料集既昂貴又難以取得。因此，基於這些資料集訓練的IR模型在真實場景中的泛化能力有限。本研究提出生成式基準真相（Generative Ground Truth, GGT），利用生成式多模態基礎模型（multimodal foundation models, MFMs）從真實世界低品質（Low-Quality, LQ）影像中產生高品質（High-Quality, HQ）目標。我們首先在各種場景與退化類型的影像上，對九種最先進的MFM（包括Nano-Banana-2與GPT-Image-2）進行系統性評估。結果顯示，採用基於視覺語言模型（VLM）的自適應提示（adaptive prompting）之Nano-Banana-2，最能合成感知上真實且內容忠於原文的HQ目標，可作為LQ輸入的GGT。接著我們利用Nano-Banana-2構建一套GGT合成流程，其中包含多階段品質控制以確保資料可靠性，並建構GGT-100K — 一個包含103,707組訓練對的LQ-HQ成對資料集，涵蓋多樣場景與複雜的真實世界退化。另建立500組影像對的測試集。大量實驗顯示，GGT-100K能持續提升多種IR模型在真實世界的泛化能力，尤其對微調生成式模型以進行IR任務有顯著助益。本研究結果表明，MFM可作為修復導向資料生成的實用工具，而GGT-100K則是有助於拓展真實世界IR模型泛化邊界的實用資源。

基於自迴歸擴散Transformer的串流同步空間音訊生成
Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

May 29

ByKe Lei, Yu Zhang, Changhao Pan, Xueyi Pu, Wenxiang Guo, Ruiqi Li, Zhou Zhao

实时且精确的空间音频生成对于提供沉浸式体验至关重要。然而，现有的空间音频合成技术常受限于生成质量与高推理延迟之间的权衡，且难以从多模态输入中捕捉精确的空间信息。为解决这些挑战，我们提出SwanSphere——一个面向全景视频与文本提示的高保真空间音频统一流式生成框架。SwanSphere的主要贡献如下：1) 我们引入了一种因果自回归扩散变换器架构，能够实现流式高质量空间音频生成；2) 设计了空间视频-音频对比学习策略以对齐视频编码器与声学领域，并进一步采用多目标在线直接偏好优化方案，从而赋予模型强大的空间感知能力与稳健的多模态空间音频合成性能；3) 为缓解当前空间音频数据集的匮乏，我们还开发了一套自动化标注流程以生成详细的空间描述。实验结果表明，SwanSphere在视频到空间音频及文本到空间音频的生成任务中均实现了卓越性能。演示内容可访问：https://swanaigc.github.io。

SANA-串流：基於混合擴散Transformer的即時串流影片編輯
SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

May 28

ByYuyang Zhao, Yicheng Pan, Qiyuan He, Jincheng Yu, Junsong Chen, Tian Ye, Haozhe Liu, Enze Xie, Song Han

即時串流視訊到視訊編輯（V2V）對於直播與遊戲等互動式應用至關重要，然而由於對時間一致性與推論吞吐量的嚴格要求，這仍是一項嚴峻挑戰。本文提出 SANA-Streaming，這是一個系統與演算法共同設計的框架，可在消費級 GPU 上實現高解析度即時串流視訊編輯，其核心設計包含以下三點：（1）混合擴散轉換器架構，在部分區塊中引入 softmax 注意力以提升局部建模能力，同時保留線性層的效率；（2）循環反向正則化，這是一種新穎的訓練策略，透過流匹配從生成內容預測來源幀來強化語義一致性，無需配對的長篇編輯影片即可改善時間一致性；（3）高效能系統協同設計，結合針對 NVIDIA Blackwell（RTX 5090）架構最佳化的融合 GDN 核心與混合精度量化（MPQ）。透過真實世界吞吐量分析，我們的 MPQ 在維持生成品質的同時，最大化張量核心使用率。最終系統可在單張 RTX 5090 GPU 上，以 24 端到端 FPS 達成即時 1280×704 解析度編輯，其中 DiT 核心部分更達到 58 FPS。實驗結果證明，我們的協同設計方法在時間一致性與系統吞吐量上均顯著優於現有最先進方法。

多樣場景中長篇語音生成的全面基準測試
Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

May 27

ByChanghao Pan, Rui Yang, Han Wang, Zhuan Zhou, Xuming He, Wenxiang Guo, Ziyue Jiang, Ruiqi Li, Yu Zhang, Chenyuhao Wen, Ke Lei, Xiang Yin, Jingyu Lu, Zhiyuan Zhu, Zhou Zhao

近期語音生成技術的進展已能實現高保真合成，然而在長上下文條件下對模型進行系統性評估仍鮮少被探討。為長篇幅語音建立全面的評估基準有其必要性，原因有二：其一，現有測試場景常局限於有限領域，與多元的下游應用之間存在顯著落差；其二，現有指標忽略一致性與連貫性等關鍵長文本因素，無法可靠地泛化。為此，我們提出 Swanbench-Speech 這項綜合性基準，將長篇幅語音品質拆解為特定且解纏的維度。SwanBench-Speech 具備三項關鍵特性：1) 豐富的語音場景：聚焦於長篇幅語音生成與對話生成，涵蓋聲學、語義及表現力等挑戰，共包含 1,101 個樣本，橫跨 17 種常見語音場景；2) 全面的評估維度：沿著聲學、語義及表現力軸向，定義一套自動化評估協議，內含七項指標，以提供全面、精確且標準化的評估；3) 有價值的洞見：透過大規模實驗，我們揭示當前模型在高表現力場景中仍顯吃力，且在一致性與層次結構上與真實錄音存在顯著差距。

針對多模態代理的任務聚焦記憶
Task-Focused Memorization for Multimodal Agents

May 29

ByTao Zou, Yichen He, Tian Qiu, Yuan Lin, Hang Li

長期記憶對多模態代理至關重要，使其能夠建立連貫經驗、累積世界知識，並實現持續學習。然而，構建有效的記憶不僅涉及記憶模組設計與準確性、忠實度等基本要求；關鍵挑戰在於決定應記憶哪些內容。多模態代理（例如具身代理）持續感知、推理並在真實或虛擬環境中行動，接收無界的多模態觀察串流。面對資訊的組合爆炸，代理必須選擇性地保留與其在環境中角色相關且對未來任務有價值的內容。為彌合這一差距，我們將記憶生成視為可學習的記憶化策略，並提出TaskMem（任務導向記憶化策略學習），這是一個基於強化學習的框架，使策略能動態調整其焦點，以因應環境中遇到的實際任務需求。TaskMem採用兩階段訓練範式：第一階段藉由在基本忠實度要求下優化記憶品質，學習如何記憶；第二階段在部署後進行，代理透過調整其基礎多模態大型語言模型上的適配器來學習應記憶哪些內容，並利用近期環境任務定義獎勵模型，引導記憶化策略聚焦於任務相關內容。為評估我們的方法，我們將VideoMME、EgoLife與EgoTempo重新設計為串流基準，模擬代理處理串流觀察與處理在線到達任務的真實場景。為獨立評估記憶，必須僅依賴代理的記憶回答問題，不存取原始影片。基於Qwen3-VL-30B-A3B，TaskMem在這些基準上的視覺問答準確率分別提升了6.3%、7.0%與5.3%。

dMoE：帶有可學習區塊專家的dLLMs
dMoE: dLLMs with Learnable Block Experts

May 29

BySicheng Feng, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang

擴散大型語言模型（dLLM）近期已成為自回歸模型極具潛力的替代方案，在維持競爭性表現的同時自然支援平行解碼。然而，當dLLM逐漸與混合專家（MoE）架構整合以擴展模型容量時，區塊平行解碼與詞元層級專家選擇之間便產生了根本性不匹配。具體而言，每次dLLM前向傳播需處理具雙向依賴關係的多個詞元，而傳統MoE層則獨立為每個詞元路由專家。此不匹配大幅增加獨特啟動專家的數量，使推論更加受限於記憶體頻寬。為解決此問題，我們提出dMoE——一個簡潔而有效的區塊層級MoE框架。其核心概念是將每個區塊內詞元層級的專家分佈匯總為統一的區塊層級專家分佈，再據此以更一致的方式引導專家路由。透過此方式，dMoE在不犧牲表現的前提下，大幅減少推論過程中獨特啟動專家的數量，從而緩解記憶體頻寬瓶頸。廣泛的基準實驗證實dMoE的有效性：平均而言，dMoE將獨特啟動專家數量從69.5降至14.6，同時保留原始表現的99.11%；記憶體使用量減少76.64%至79.84%，並實現1.14倍至1.66倍的端到端延遲加速。程式碼已公開於：https://github.com/fscdc/dMoE

並非所有分歧皆可學習：在線策略蒸餾中的標記可教性
Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

May 26

ByYuanyi Wang, Su Lu, Yanggan Gu, Pengkai Wang, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang

同策略蒸餾（OPD）透過在學生模型自身的軌跡上施加詞元級別的教師監督來訓練學生。近期選擇性OPD方法利用OPD訊號的非均勻性，優先關注高熵或高分歧的詞元。我們重新審視此原則，並提出疑問：哪些詞元級別的教師訊號實際上是可學習的？我們採用一種固定上下文診斷方法，該方法衡量同一上下文中的教師-學生KL散度減少，從而證明原始的KL分歧僅是學習價值的粗略代理指標。它混淆了可學習分歧（教師將校正質量分配給學生的前K個候選項）與不相容分歧（教師將質量主要分配在學生當前支撐集之外）。我們將這種局部相容性形式化為詞元可教性，並證明其相比原始KL單獨預測時，能更準確地預測固定上下文的改進。受此發現啟發，我們提出可教性感知同策略蒸餾（TA-OPD），這是一種輕量級詞元位置選擇方法，無需獎勵模型或驗證器，即可針對高可教性位置施加OPD損失。在Qwen2.5與Qwen 3的教師-學生設定下，TA-OPD僅保留5%的詞元，其表現往往優於全詞元OPD，並超越基於熵和散度的基準方法。我們的結果將選擇性OPD重新架構為選擇可學習的教師訊號，而非僅僅挑選顯著詞元。

SCOPE：透過共同演化策略實現開放式任務的自我對弈
SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

May 29

ByWai-Chung Kwan, Aryo Pradipta Gema, Joshua Ong Jun Leang, Pasquale Minervini

自我對弈可以在無外部監督下訓練語言模型。然而，現有方法需要可規則驗證的答案，使得開放式任務依賴於精心設計的提示或前沿模型評判。我們提出SCOPE，一種針對開放式任務的無資料自我對弈框架，該框架共同演化兩種策略：一個生成文件基礎任務的挑戰者，以及一個透過多輪檢索回答問題的解決者。初始模型的凍結副本作為自我評判者，負責根據原始文件撰寫任務特定評分標準，並據此對解決者回應進行評分。在三個7-8B指令微調模型（Qwen2.5、Qwen3、OLMo-3）上，SCOPE在八個基準測試中將開放式任務表現提升最多+10.4分，並匹配或超越在約9K個精心設計提示上訓練的GRPO_data。儘管僅在開放式任務上訓練，SCOPE也在七個保留的基準測試中將短形式問答表現提升最多+13.8分，在所有三個模型上均超越GRPO_data。消融實驗顯示，共同演化挑戰者對於保持任務接近解決者的能力前沿是必要的；效能提升來自檢索與合成的雙重改進，兩者相對貢獻因任務而異；而評分標準生成品質是自我評判的瓶頸。

SAAS：用於代理式搜尋中過度搜尋緩解的自我感知強化學習
SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

May 28

ByYunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su

代理式搜索使大型語言模型能透過迭代推理與外部搜索解決複雜的多跳問題。儘管這些系統效果顯著，但在實務中常面臨一項關鍵限制：代理無法認知自身知識邊界，在內部知識足夠時盲目觸發搜索，且在已蒐集充分證據後仍無法終止搜索。此種自我認知缺乏導致嚴重的過度搜索，造成顯著推理延遲與高昂計算成本。為此，我們提出SAAS——一種新穎的強化學習框架，旨在培養動態自我認知，精準調控搜索行為而不損及準確性。SAAS引入三項關鍵組件：(i) 搜索邊界建模機制——透過比較禁用搜索與啟用搜索的軌跡，在演化策略下識別搜索邊界；(ii) 邊界感知獎勵模組——將此邊界認知轉化為軌跡層級懲罰，抑制非必要與重複搜索；(iii) 分階段優化策略——利用序列式課程優先強化推理而非搜索正則化，從而避免獎勵駭客行為。大量實驗證明，SAAS在維持準確性的同時大幅減少過度搜索。我們的程式碼已匿名開源於https://github.com/XMUDeepLIT/SAAS。

PEEK：通過高效知識蒸餾選取關鍵幀
PEEK: Picking Essential frames via Efficient Knowledge distillation

May 29

ByKillian Steunou, Anas Filali Razzouki, Khalil Guetari, Mounîm A. El-Yacoubi, Yannis Tevissen

视频语言模型只能处理有限数量的帧，因此帧选择成为高效视频描述的关键瓶颈。大多数视频描述流程仍依赖均匀采样，这种方法计算成本低但忽略了视觉内容。自适应帧采样最近成为从视频中选取最具信息量帧的一种有前景的方法，然而现有方法计算成本仍然较高。我们提出PEEK，一种高效的动态帧采样方法，将基于描述条件的帧相关性排名从更强的教师模型蒸馏到仅基于视觉内容的轻量级时序模型中。总体而言，在ActivityNet Captions和MSR-VTT数据集上，我们的方法在所有评估的下游视觉语言模型中均优于现有最先进方法，特别是在仅选取一帧或两帧进行描述时表现最佳，在大多数帧预算下获得最佳CIDEr分数。在ActivityNet Captions数据集上，PEEK表现尤为突出，在16种配置中赢得14种。在MSR-VTT上的零样本评估表明，我们的模型在低帧预算下迁移效果最佳，而在四帧和八帧设置下，由于时序覆盖与视觉多样性竞争加剧，结果较为混杂。与近年来提出的自适应基线方法相比，PEEK在低预算场景下不仅准确率更高，而且效率更优：其仅增加描述处理时间5.2%，而CSTA增加65.4%，MaxInfo增加211.9%。我们在https://github.com/momentslab/peek开源了代码与预训练模型权重。

探索自主代理式數據工程以實現模型專業化
Exploring Autonomous Agentic Data Engineering for Model Specialization

May 28

ByYujie Luo, Xiangyuan Ru, Jingsheng Zheng, Jingjing Wang, Yuqi Zhu, Jintian Zhang, Runnan Fang, Kewei Xu, Ye Liu, Zheng Wei, Jiang Bian, Zang Li, Shumin Deng

大型語言模型（LLMs）在通用任務上展現出優異表現，但在缺乏高品質領域特定資料的情況下，往往難以適應專業領域。現有基於LLMs的資料策劃方法主要依賴人工設計的工作流程，尚未探討LLMs能否自主執行端到端的資料工程管線以實現模型專業化。我們正式定義了「自主代理資料工程」（Autonomous Agentic Data Engineering），這是一項新穎的任務，旨在評估計LLMs能否作為自主資料工程師，透過端到端的資料策劃驅動模型專業化。我們將資料視為可優化的組件，並研究能夠規劃、生成並反覆優化跨領域訓練資料的代理，其優化過程以訓練後效能提升為導向。實驗顯示，自主LLM資料工程師能帶來顯著效益：GPT-5.2透過迭代的代理驅動資料適應，建構了一套訓練課程，使學生模型的效能提升57.29%。我們的研究不僅揭示了自主資料工程的潛力與瓶頸，更將其確立為一項可量化的能力，並為代理驅動的模型專業化開創了可行的路徑。程式碼將於 https://github.com/zjunlp/DataAgent 釋出。

LongDS-Bench: 長時域自主資料分析之失敗探討
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

May 28

ByKewei Xu, Xiaoben Lu, Shuofei Qiao, Zihan Ding, Haoming Xu, Lei Liang, Ningyu Zhang

真實世界資料分析本質上具有迭代性，然而現有基準主要評估孤立或短互動任務，未能測試代理在長期過程中追蹤演進分析脈絡的能力。為此，我們提出LongDS——一個專為長期多輪資料分析設計的基準，要求代理必須維護、更新、還原並組合不斷演進的分析狀態。LongDS包含68個以真實Kaggle筆記本為基礎的任務，橫跨地球科學、商業與教育等六大領域，共計2,225輪互動。任務圍繞狀態演化模式（如反事實擾動、回滾、多狀態組合）設計，平均依賴跨度為11.3輪。在評估五個最先進模型後，我們發現最佳模型平均準確率僅達48.45%，從早期到後期輪次效能下降近47個百分點，且長期錯誤占失敗原因的52%至69%。進一步分析顯示，增加代理步驟未必能提升效能，關鍵瓶頸在於維持正確的分析狀態，而非提高互動次數。我們釋出LongDS以支持可靠長期代理式資料分析的研究。程式碼與資料將於https://github.com/zjunlp/DataMind 公開。

VLM3：視覺語言模型是天生的3D學習者
VLM3: Vision Language Models Are Native 3D Learners

May 28

ByZhipeng Cai, Zhuang Liu, Yunyang Xiong, Zechun Liu, Vikas Chandra, Yangyang Shi

視覺語言模型（VLM）透過提示機制實現統一模型解決各類視覺任務，在語意理解方面展現優異效能。然而，三維理解仍高度依賴具備複雜任務特化設計的專家視覺模型。本研究的核心論點在於：視覺語言模型本質上即為三維學習者。經由大規模深度研究，我們發現：1）焦距統一化、2）基於文字的像素參照、以及3）資料混合與擴增，即為實現高效三維學習的必要條件。而模型架構變更、大型模型、重度資料增強、包含回歸公式在內的複雜損失函數——許多構成專家視覺模型基礎的技術——事實上並非必要條件。據此，我們提出VLM3，此可擴展方法採用最簡潔設計，使標準視覺語言模型能掌握多元三維任務。VLM3不僅大幅提升VLM深度估計準確度（0.84 -> 0.9），更能實現像素對應、相機姿態估計及物體層級三維理解等多樣化三維任務，在維持標準架構與文字基礎訓練的前提下，達到專家視覺模型的準確度。我們認為VLM3為簡潔且可擴展的三維學習開創了新典範。

透過測試時訓練線性化視覺變換器
Linearizing Vision Transformer with Test-Time Training

May 28

ByYining Li, Dongchen Han, Zeyu Liu, Hanyi Wang, Yulin Wang, Gao Huang

雖然線性複雜度注意力機制提供了克服Softmax注意力二次瓶頸的可行替代方案，但從頭訓練此類模型仍耗費極高成本。繼承預訓練Transformer的權重提供了誘人的捷徑，然而Softmax注意力與線性注意力之間的根本表徵差距，阻礙了權重的有效轉移。在本研究中，我們從架構對齊與表徵對齊兩個角度解決此轉換挑戰。我們發現測試時訓練（TTT）是一種線性複雜度架構，其雙層動態公式在結構上與Softmax注意力對齊，能夠直接繼承預訓練注意力權重。為進一步對齊表徵特性（包括鍵位移不變性與局部性），我們引入了鍵實例歸一化與輕量級局部性增強模組。我們透過線性化Stable Diffusion 3.5來驗證此方法，並提出SD3.5-T^5（從Transformer到測試時訓練）。僅需在4×H20 GPU上進行1小時微調，SD3.5-T^5即可達到與微調後Softmax模型相當的文字到影像生成品質，同時在1K與2K解析度下分別加速1.32倍與1.47倍的推論速度。程式碼已開源於 https://github.com/LeapLabTHU/Transformer-to-TTT。

修正策略引發的錯誤：面向穩健GUI代理的基準測試與軌跡合成
Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

May 28

ByTianpeng Bu, Xin Liu, Qihua Chen, Hao Jiang, Shurui Li, Hongtao Duan, Lu Jiang, Lulu Hu, Bin Yang, Minying Zhang

儘管GUI代理已取得快速進展，但它們往往缺乏從自身錯誤中恢復的魯棒性，阻礙了實際部署。為了解決評估與資料層面的差距，我們引入了GUI-RobustEval與魯棒性驅動的軌跡合成。GUI-RobustEval包含1,216個可執行測試案例，能夠系統性地衡量在廣泛且真實的錯誤模式下的錯誤恢復能力。在資料層面，RoTS是一個可擴展的合成框架，透過基於樹狀結構的管道主動探索多樣化的錯誤模式，並合成對應的恢復步驟，從而生成80萬筆高品質資料。我們在該資料集上微調的RoTS-7B與RoTS-32B兩個模型，在GUI-RobustEval及傳統GUI基準測試上均展現出顯著提升。尤其RoTS-32B在OSWorld上達到最先進的表現，成功率為47.4%，All-Pass@4分數為33.8%，這表明改善長週期錯誤恢復能力有助於同時提升魯棒性與整體性能。我們的程式碼已開源於 https://github.com/AlibabaResearch/RoTS。

框架更新並非框架效益：釐清自我演化大型語言模型代理中的演化能力
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

May 28

ByMinhua Lin, Juncheng Wu, Zijun Wang, Zhan Shi, Yisi Sang, Bing He, Zewen Liu, Tianxin Wei, Zongyu Wu, Zhiwei Zhang, Dakuo Wang, Xiang Zhang, Benoit Dumoulin, Cihang Xie, Yuyin Zhou, Suhang Wang, Hanqing Lu

LLM代理日益被部署為建構於可編輯外部支架（包括提示、技能、記憶與工具）之上的系統，這些支架在不改變模型參數的前提下塑造任務執行過程。支架自我演化透過從執行證據更新這些支架來適應此類代理。然而，模型在任務求解上的基礎能力是否能預測其在支架自我演化中的能力，目前仍不清楚：哪些模型能產生有用的支架更新，以及哪些模型能真正從中受益？我們分析了兩種支架自我演化能力：（i）支架更新能力，即從執行證據產生有用且持久之支架更新的能力；（ii）支架受益能力，即在任務求解過程中從更新後的支架獲益的能力。我們的分析揭示了兩項發現。首先，支架更新能力在基礎能力上呈現平坦趨勢：來自不同能力層級的模型所產生的支架更新，導致了驚人相似的效果提升；即使是Qwen3.5-9B的更新所帶來的增益也與Claude Opus~4.6相當。其次，支架受益能力在基礎能力上呈現非單調趨勢：弱層級模型從更新支架中獲益甚微，中層級模型獲益最多，而強層級模型獲益則少於中層級。我們將弱層級的增益低落歸因於兩種失敗模式：弱層級模型可能無法啟動相關的支架構件，或者雖啟動卻無法忠實遵循這些構件。這些發現建議將能力預算投入於任務求解代理而非演化器，並在代理訓練中針對支架調用與長程指令遵循進行強化。我們的原始碼已公開於 https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution。

從提示注入到持續控制：防禦代理系統中的木馬後門
From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

May 29

ByJiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen

LLM代理正從對話式聊天機器人演進為真實工作空間中的操作工具。在本地代理框架中，LLM可以讀寫檔案、呼叫工具，並跨工作階段重複使用工作空間狀態。雖然這些能力增強了實用性，但也為攻擊者暴露了新的攻擊面。攻擊者可以在檔案或工具輸出中嵌入提示注入。代理可能會讀取這個隱藏指令，將其儲存，並在後續執行。在這種多步驟木馬攻擊範式中，沒有任何單一步驟本身看似惡意，但這些步驟可以共同將不受信任的文字轉化為持久的控制內容。然而，現有的防禦措施通常孤立地檢查每個步驟。因此，它們可以阻擋明顯的有害行為，但無法檢測到植入後門的早期寫入操作。為了揭露這種威脅，我們引入了ClawTrojan，這是一個旨在識別本地代理框架中多步驟木馬攻擊的基準測試。在一個基於OpenClaw風格的模擬工作空間中，搭配GPT-5.4，ClawTrojan達到了95.5%的攻擊成功率，而現有的單輪提示注入攻擊在同一模型上的攻擊成功率接近零。為了解決這一威脅，我們提出了DASGuard，它掃描敏感本地檔案中的控制類文字，追蹤其來源，並移除非來自可信來源的控制內容。我們的結果顯示，DASGuard通過結合執行時攻擊阻擋與對工作空間的清理提交，實現了強大的動態防禦。

用於長影片理解的線性擴展影片VLM
Linear Scaling Video VLMs for Long Video Understanding

May 29

ByCristobal Eyzaguirre, Jiajun Wu, Juan Carlos Niebles

视频视觉语言模型（VLMs）正被越来越多地应用于长期和流式场景，然而绝大多数视频编码器仍依赖时空自注意力机制，导致其计算量和延迟随帧数呈二次增长。现有的效率方法虽提升了可扩展性，但相较于完整自注意力机制往往损失精度，例如通过激进的帧/令牌丢弃或粗略的注意力近似。我们提出StateKV——一种推理阶段方法，通过将跨帧上下文承载于固定容量、基于重要性的循环状态中，并辅以用于解码的第二个全量逐帧缓存，从而将预训练的长视频VLM适配为线性时间视频预填充。在三个长视频基准测试及涵盖三个模型家族、多种规模的七个模型上，StateKV的精度接近完整自注意力机制，且持续优于主流的滑动窗口/基于近期信息的流式近似方法，且无需微调或架构修改。StateKV还降低了以FLOPs衡量的视频预填充成本，使得在固定计算预算下能够运行更大模型来获得更强的精度。这些结果表明，这是迈向可扩展长视频理解的一个实践性步骤。

DecMem：邁向基於解耦記憶的時長分鐘級一致世界生成
DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

May 29

ByZhenhao Yang, Xiaoshi Wu, Zhengyao Lv, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Kun Gai, Kwan-Yee K. Wong

近年來，視頻生成模型的進展顯著推動了可控世界模型的快速發展。然而，在長時域推理中維持精細的時空一致性仍是關鍵挑戰。本研究突破傳統顯式3D記憶與粗粒度幀級隱式建模，提出一種細粒度、可學習且可擴展的記憶機制，以實現一致性世界生成。我們首先識別出樸素可學習記憶架構在長時域外推中的兩項根本限制：計算效率低下與注意力分散。透過對注意力分散的系統性分析，我們提出解耦記憶架構DecMem，其中採用稀疏全局記憶實現對全局歷史的高效細粒度存取，並結合錨定局部記憶確保穩定且高品質的外推。大量實驗證明，DecMem顯著優於當前最先進方法。藉由確保精準且高效的長期記憶機制，並展現卓越的外推能力，DecMem能實現分鐘級可控長視頻生成，同時維持高保真度與一致性。

軌跡中的捉迷藏：探索失敗訊號以進行VLA運行時監控
Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

May 29

BySeongheon Park, Wendi Li, Changdae Oh, Samuel Yeh, Zsolt Kira, Michael Hagenow, Sharon Li

視覺-語言-行動（VLA）模型使機器人能遵循自然語言指令並在多元任務中展現泛化能力，然而這類模型在實際部署時仍容易因執行失敗而損害系統可靠性。因此，在執行過程中檢測此類失誤，對於穩健部署具身系統至關重要。現有的故障檢測方法，或依賴於昂貴的動作重新取樣與外部模型，或將軌跡層級的標籤均勻分布至每個時間步，從而掩蓋了局部故障信號。本文提出「捉迷藏」（Hide-and-Seek）框架，將VLA故障檢測形式化為粗監督學習問題。透過結合軌跡間與軌跡內對比目標，Hide-and-Seek能在僅依靠軌跡層級監督（無需任何時間步層級標註）的情況下，定位出表徵故障的動作，並誘導出具有時間結構的故障信號。我們在LIBERO、VLABench以及實際機器人平台上，針對三種具代表性的VLA策略——OpenVLA、π_0與π_{0.5}——評估Hide-and-Seek。實驗結果顯示，該方法在共形預測下達成了準確率與時效性的實用權衡，並在已見與未見任務上均展現良好的泛化能力，取得最先進的多任務故障檢測表現。

VisualThink-VLA：視覺中間推理以實現高效且低延遲的視覺-語言-行動策略
VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies

May 28

ByMingjian Gao, Wenqiao Zhang, Yuqian Yuan, Yang Dai, Binhe Yu, Zheqi Lv, Haoyu Zheng, Jiaqi Zhu, Zhiqi Ge, Zixuan Wan, Siliang Tang, Yueting Zhuang

近期研究開始為視覺-語言-行動（VLA）策略配備明確的中間推理能力。然而，在具身控制中，文字思維鏈並非理想選擇：與行動預測無關或弱文字資訊可能干擾預測結果，而自迴歸文字解碼則會為即時閉環執行增加過多延遲。我們提出VISUALTHINK-VLA，這是一個專為精準低延遲VLA策略設計的視覺中間推理框架。我們的核心引導理念是以有效視覺思維輔助行動：VISUALTHINK-VLA透過緊湊的視覺證據介面引導行動預測，既保留空間精確性，又避免解碼負擔。此外，為進一步提升效能與效率，VISUALTHINK-VLA採用特製的選擇性路由機制來學習視覺證據標記，能在維持高容量專精化的同時實現低延遲推理。我們也引入VisualEvidence-Kit，這套監督與稽核資源以VisualEvidence-Agent為核心，建構包含75.47萬組VLA指令的VisualEvidence-Set，用於路由監督與反事實忠誠度測試。在多重基準測試及真實機器人評估中，VISUALTHINK-VLA在多數基準上達到最高成功率，同時將推理增強基準原本數秒的延遲降至亞秒級。例如，在BridgeData V2上，其單步驟延遲從ECoT的8.377秒降至0.367秒，實現22.8倍加速比。

眼見非知：視覺語言模型是否知道何時不應回答空間問題（及原因）？
Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

May 28

ByYue Zhang, Zun Wang, Han Lin, Yonatan Bitton, Idan Szpektor, Mohit Bansal

空間推理是部署於真實環境中的視覺語言模型（VLM）的一項基本能力。然而，視覺觀察本質上只是對三維世界的有限表徵：遮擋可能使物體不可見，而視角可能使幾何屬性產生誤導。儘管如此，現有的空間推理基準通常假設觀察是充分且可靠的，重點關注模型能否給出正確答案，而非模型是否能夠識別出問題無法回答的情況以及需要哪些額外的觀察。在本研究中，我們透過建構一個受控的評估框架「SpatialUncertain」來挑戰此假設，並引入兩種觀察挑戰：(1) 遮擋，它會隱藏目標資訊；(2) 視角模糊，它會產生誤導性的視覺線索。針對每種配置，我們設計了在清晰觀察下可回答、但在引入的挑戰下需要拒答的空間問題。我們進一步評估模型是否能識別出哪些額外視角可以解除視角模糊。我們對一系列多樣的前沿開源與閉源視覺語言模型的結果揭示了兩種一致的失效模式。首先，模型傾向於過度自信地回答，即使視覺證據不完整或具有誤導性，仍試圖解決空間推理任務，在遮擋下的平均準確率約為30%，在視角模糊下則低於10%。其次，即使有額外視角可用，部分模型在辨別哪些視角能提供可靠證據時的表現接近隨機水準。綜合來看，我們的研究結果呼籲應超越答案正確性，轉向評估模型是否知道何時應當拒答，以及如何尋求可靠的證據。

HL-OutPaint：面向高解析度長程影片的由粗到細影片外繪方法
HL-OutPaint: Coarse-to-Fine Video Outpainting for High-Resolution Long-Range Videos

May 19

ByJeongeun Park, Janghyeok Han, Geonung Kim, Hyun-Seung Lee, Kyuha Choi, Youngseok Han, Sunghyun Cho

視頻外繪技術可在原始視頻空間範圍之外生成合理的視覺內容，在將視頻適配至不同顯示格式方面扮演關鍵角色。為支援此類應用場景，該技術必須能夠在長序列中實現大範圍空間外推。然而，現有方法大多僅解決其中一項挑戰，或缺乏明確機制來確保整體時空一致性，因而存在顯著限制。本文提出 HL-OutPaint，一個適用於長序列的高解析度視頻外繪框架。我們採用粗到細的兩階段策略。首先構建全局粗引導（GCG），這是一種低解析度表示，擷取視頻的整體結構與主要運動。不同於簡單的下採樣，GCG 經由一種新穎的全局-局部幀交換機制構建，該機制將稀疏的全局關鍵幀與局部時間視窗耦合，並在取樣過程中交換資訊。這使得 GCG 能夠將長期結構一致性與短期時間動態編碼為統一的表示。在此表示的引導下，HL-OutPaint 接著進行高解析度外繪，生成空間細節豐富且時間一致的內容。透過將全局結構建模與細粒度合成分離，我們的框架實現了針對大範圍空間擴展與長視頻序列的穩定、連貫生成。大量實驗表明，HL-OutPaint 在涉及寬空間外推與長視頻序列的挑戰性場景中優於現有方法。

DEMON：音樂編排噪聲的擴散引擎
DEMON: Diffusion Engine for Musical Orchestrated Noise

May 27

ByRyan Fosdick

我們提出DEMON，這是一個即時擴散引擎，能將去噪過程轉變為可演奏的現場音樂樂器：一個既廣闊（每幀可同時調整多個輸出參數）又靈敏（每個控制依據其在去噪循環中的位置盡快生效）的控制介面。該系統建構於ACE-Step 1.5與StreamDiffusion的環形緩衝區架構，並搭配TensorRT加速，在單一消費級GPU（RTX 5090）上，針對60秒音樂可達到每秒12.3次解碼器完成運算，或是在我們生產環境的環形深度設定為4時，達到每秒11.3次生成。在此速率下，去噪參數得以成為可行的現場演奏控制項，但環形緩衝區僅能以自身的排出速率（至少為S個去噪步驟）傳播每次請求的變更。我們提出了四項機制：(1) 每槽異質去噪排程：每個環形緩衝區槽擁有自己的時間步排程，因此移動的去噪滑桿得以被追蹤，而無需清除正在處理的佇列；相較之下，上游的全局排程設計必須重建並捨棄該佇列。(2) 共享可變的每步驟狀態：任何在每個求解器步驟中被查詢的參數都能立即生效，跳過環形緩衝區的排出延遲。(3) 每幀來源混合：在標準SDE重噪步驟中引入取樣時控制，提供逐幀的轉換強度軸，作為標量去噪排程的補充。(4) 視窗化VAE解碼，利用感受野分析實現8.0倍解碼加速。結合這些機制，我們將串流擴散參數根據其觸發與收斂延遲，區分為四個傳播類別。

嵌入模型如何将概念进行绑定？
How can embedding models bind concepts?

May 29

ByArnas Uselis, Darina Koishigarina, Seong Joon Oh

人類在多物體場景中能輕易判斷哪個顏色屬於哪個形狀，這種能力稱為概念綁定。視覺-語言嵌入模型（如CLIP）在綁定上表現不佳：它們能識別個別概念，但無法表徵哪些概念構成了哪些物體。儘管CLIP在跨模態檢索中表現得像一個概念袋模型，但物體資訊仍可分別從其圖像和文字嵌入中恢復。我們透過綁定函數來研究這種張力，該函數將概念映射到場景嵌入。我們發現場景嵌入可加性分解為物體表徵，這解釋了為何單模態探針能恢復物體資訊。然而，CLIP的綁定函數具有高複雜性，這可能阻礙圖像和文字編碼器學習一個能推廣到未見概念組合的共享綁定機制。接著我們探討此限制是否為本質性的。我們證明並非如此。在從頭訓練的受控Transformer模型中，只要資料覆蓋足夠，綁定泛化能力便會出現。這些模型學習到低複雜性的綁定函數，其特徵是概念間的乘法交互作用，從而實現系統性泛化。程式碼已公開於 https://github.com/oshapio/binding-concepts-complexity。

RayDer：來自真實世界影片的可擴展自監督新視圖合成
RayDer: Scalable Self-Supervised Novel View Synthesis from Real-World Video

May 29

ByUlrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer

自監督新視角合成（NVS）在大規模應用上仍具挑戰性，儘管影片資料豐富，主因在於真實影片訓練的脆弱性，以及多網路系統設計難以預測的擴展行為。我們提出 RayDer，一個統一的前饋變壓器架構，將相機估計、場景重建與渲染整合至單一主幹網路，使自監督 NVS 轉變為一個適定的單模型擴展問題。透過一個被視為干擾因子的最小動態狀態，該架構能吸收時變內容，並在不受約束的真實世界影片上實現穩定訓練。關鍵在於，RayDer 始終將靜態場景 NVS 作為目標任務：動態內容僅作為可擴展的監督信號加以利用，而非如同動態場景（4D）NVS 般進行重建。在多種模型規模與跨數個數量級的資料量下，RayDer 展現出與資料及運算量一致的清晰冪律擴展行為，並優於靜態場景資料混合方案。在大量基準測試中，RayDer 達到與最先進監督方法競爭的強大零樣本開放集性能。專案頁面：https://compvis.github.io/rayder

One-Forcing: 邁向穩定的單步自迴歸影片生成
One-Forcing: Towards Stable One-Step Autoregressive Video Generation

May 22

ByJiaqi Feng, Justin Cui, Yuanhao Ban, Cho-Jui Hsieh

近期研究显著提升了自回归机制下的实时交互式视频生成能力。然而，大多数现有的少步自回归视频生成方法（通常从对应的多步教师模型蒸馏而来）默认采用4步采样配置，这在部署时仍会产生显著延迟，且当采样步数进一步减少（尤其是单步设置）时，会出现严重的质量退化。轨迹式一致性蒸馏方法往往生成动态较弱的视频，而基于DMD的方法（如Self-Forcing）则倾向于产生模糊帧。为解决这一挑战，我们提出“One-Forcing”，一种简单而有效的方法，通过在DMD目标中增加辅助GAN损失，实现高质量且高效的一步视频生成。在VBench上的实验表明，One-Forcing的总分达到83.76，在一步因果视频生成方法中建立了最先进的性能，并与强大的多步方法保持竞争力。我们进一步证明，仅需分块模型三分之一训练成本，即可稳定实现单步逐帧自回归生成——这一设定在先前方法中未能成功达成。

OpenSkillEval：自動稽核LLM代理的開放技能生態系統
OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents

May 28

ByJiahao Ying, Boxian Ai, Wei Tang, Siyuan Liu, Yixin Cao

技能，即針對大型語言模型（LLMs）提煉的結構化工作流程指令，正成為提升代理在真實世界下游任務中表現的重要機制。然而，隨著開源技能生態系統迅速擴展，不同模型與代理框架如何與技能互動、如何評估技能品質，以及使用者應如何在實際成本與效能取捨下選擇技能，仍尚未明確。本文提出OpenSkillEval，一個針對技能增強型代理系統及技能本身的自動化評估框架。有別於依賴靜態基準測試，OpenSkillEval從五類下游應用（簡報生成、前端網頁設計、海報生成、資料視覺化與報告生成）中不斷演進的真實世界產物，自動建構實際任務實例。它進一步收集並整理社群貢獻的技能，以便在統一的任務設定下進行控制比較。我們利用超過600個動態生成的任務實例與30個開源技能，對當前最先進的模型與代理框架進行系統性評估。結果顯示：具備技能並不保證有效使用技能；技能增強的效益強烈取決於底層模型與代理框架；許多廣受歡迎的技能並未持續優於不具技能的基礎代理。這些發現凸顯了動態、基於任務的評估之必要，並為LLM代理的技能設計、選擇與部署提供實務見解。更多案例與基準資源可於專案網站取得：https://yingjiahao14.github.io/OpenSkillEval-Web/。

湧現語言於語言模型代理群體中：從代幣效率到規避監管
Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion

May 29

ByStine Lyngsø Beltoft, William Brach, Federico Torrielli, Jacob Nielsen, Annemette Brok Pirchert, Filippo Tonini, Peter Schneider-Kamp, Lukas Galke Poech

當前監控自主語言模型代理主要依賴於表面行為。然而，當代理群體為規避人類監督而發明新語言時，會發生什麼情況？本文以Moltbook平台為基礎研究新興語言。為此，我們基於Moltbook Files資料集，採用兩階段方法：先透過規則型啟發式方法（約匹配6000筆資料），再進行零樣本分類（保留518筆）。分類結果包括：符號效率型（166例）、新型自然語言（106例）、監督規避型（59例）。我們同時進行量化與質性分析。研究結果顯示，DeepSeek-3.2對「為規避監督而提案新語言」的貼文，評定為較其他類別更缺乏對齊性，且所有語言僅憑描述即可被其他語言模型透過情境學習掌握。此外，人工研究典型案例後，發現了令人驚訝的高階隱寫協議，例如將隱藏訊息嵌入自然語言之中。雖無法確定這些語言的構思過程是否具有高度自主性，但我們的證據進一步證實：僅監控表面行為，可能很快就不足以維持對代理群體的控制。

RLHF的另一面：用於獎勵模型自監督改進的在策略反饋
The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

May 29

ByXiaobo Wang, Tong Wu, Min Tang, Jiaqi Li, Qi Liu, Zilong Zheng

建立強大的獎勵模型以對齊語言模型，其瓶頸在於從人類標註或評判模型中獲取多樣且可靠的偏好數據，不僅成本高且困難重重。當策略進化超越靜態獎勵模型訓練時，此問題更是急遽惡化。為此，我們提出SAVE（基於價值錨定的在策略反饋之自我監督獎勵模型改進）框架，該框架透過使用價值函數，將在策略回應評分作為反饋，用於在策略獎勵模型訓練。SAVE 自然地將經獎勵評分後的在策略回應轉換為監督訊號，並以特定提示的價值頭作為自適應錨點。它計算獎勵模型優勢值，並過濾模糊樣本，藉由對比目標來更新獎勵模型。透過在六個多樣化基準上進行嚴謹的實證評估，SAVE 對於強化獎勵模型訓練的有效性獲得強烈驗證。它在所有資料集上均達到超越現有方法的結果，同時在三種強化學習演算法（GRPO、RLOO、GSPO）及不同策略骨幹網路中保持一致的改進。

SoundnessBench：你的人工智慧科學家真的能區分好壞研究點子嗎？
SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

May 28

BySy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang

自主AI研究代理旨在透過自動化研究流程（從假設生成到同儕審查）來加速科學發現。然而，現有基準測試鮮少觸及一項關鍵瓶頸：大型語言模型在耗費時間與計算資源之前，能否判斷研究構想的方法論可行性。我們提出SoundnessBench，這是一個經過精心設計的基準測試，包含從ICLR投稿中重建的1,099份機器學習研究提案，附有審查者的嚴謹度子分數標註，並與原始論文進行核對。SoundnessBench應被解讀為針對可復現之提案階段嚴謹度的基準，而非對全文審查結果的精確預測。在測試12個前沿大型語言模型時，我們發現普遍的樂觀偏誤：在標準提示下，模型經常將低嚴謹度的提案評為嚴謹；而激進提示則大致將誤差從偽陽性轉移至偽陰性。針對公開語料庫污染、論文辨識詞語、表面特徵及人類審查品質的額外控制，顯示此行為無法由單一混淆變項解釋。我們的結果表明，目前的大型語言模型尚無法勝任科學嚴謹性評估的獨立第一道關卡。

GDSD：強化學習作為擴散語言模型的引導式去噪自蒸餾
GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models

May 28

ByXiaohang Tang, Keyue Jiang, Che Liu, Qifang Zhao, Xiaoxiao Xu, Sangwoong Yoon, Ilija Bogunovic

強化學習可用於提升擴散大型語言模型的策略（去噪器），然而其政策似然函數的難以處理性構成障礙。一類主流且高效的方法將標準強化學習中的似然函數替換為其證據下界，並透過隨機遮罩序列進行估計。儘管此類方法與預訓練高度契合，但其使用證據下界作為似然代理函數所導致的訓練-推理不匹配問題會引入偏差，進而可能降低效能。本研究提出引導式去噪器自蒸餾方法，直接從逆向KL正則化強化學習的閉式最優解所導出的優勢引導自教師模型中蒸餾擴散大型語言模型的去噪器。GDSD透過無正規化目標函數將擴散大型語言模型的去噪器logits與教師模型對齊，從而將強化學習簡化為無似然自蒸餾，因此迴避了訓練-推理不匹配偏差。近期基於證據下界的方法實為應用不同蒸餾散度的實例，但存在GDSD可避免的可診斷病態現象。在LLaDA-8B與Dream-7B模型的規劃、數學與程式碼基準測試中，GDSD在更穩定的訓練獎勵動態下持續優於先前最先進的ELBO方法，測試準確率提升最高達+19.6%。這些結果表明，無需依賴ELBO似然代理函數的直接去噪器自蒸餾，能為擴散大型語言模型提供更穩定且有效的強化學習流程。程式碼已公開於 https://github.com/GaryBall/GDSD。

從模型擴展到系統擴展：擴展代理型AI中的調度框架
From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

May 25

ByShangding Gu

本文研究代理型人工智能的下一个主要瓶颈——系统扩展，而非仅模型扩展：即围绕基础模型设计可审计、持久、模块化且可验证的架构。我们将这一转变称为“系统框架扩展”：将基础模型周围的结构化执行层视为设计、评估与优化的首要对象。尽管近期的大语言模型使智能体能够使用工具、检索信息、维持记忆并执行长周期工作流，但评估仍以模型为中心，往往将智能体简化为最终任务的成功率，而将记忆、检索、工具使用、编排、验证与治理视为次要实现细节。这种框架日益显得不足，因为智能体的性能源于基础模型、记忆底层、语境构建器、技能路由层、编排循环以及验证与治理层之间的交互作用。这些组件共同构成智能体系统框架，将模型能力转化为长周期智能体行为。我们通过三个核心瓶颈研究系统框架扩展：语境治理、可信记忆与动态技能路由，以及协调并约束它们的编排与治理机制。我们进一步勾勒出系统框架层面基准评估的研究议程，这些基准超越一次性任务成功率，转而衡量轨迹质量、记忆卫生、语境效率、通信保真度、验证成本以及随时间推移的安全演进。为使讨论具体化，我们开发了CheetahClaws（https://github.com/SafeRL-Lab/cheetahclaws），一个Python原生参考系统框架，并将其与Claude Code和OpenClaw进行比较。我们的核心主张是：未来代理型人工智能的进展，将同样取决于系统设计与更强大的基础模型。

FRAPPE：全輸入、殘差輸出自動編碼與投影追蹤編碼器
FRAPPE: Full Input, Residual Output Autoencoding with Projection Pursuit Encoder

May 27

ByDan Jacobellis, Neeraja J. Yadwadkar

媒體壓縮標準在率失真複雜度權衡上已達到瓶頸，限制了在機器人、可穿戴裝置及遙測等應用中將昂貴的AI感知任務卸載至雲端的能力。基於DNN的編解碼器雖能提升壓縮效率，卻伴隨代價：難以適應位元率的大幅變化，且即時編碼需依賴昂貴且高功耗的GPU，因而無法用於低成本或資源受限平台。為解決這些限制，我們提出新穎的自動編碼框架FRAPPE，其透過投影追蹤編碼器使用完整輸入預測殘差輸出。FRAPPE的編碼目標自然排序潛在通道的重要性，實現零開銷的可變位元率編碼。不同於基於RNN的學習型編解碼器（其編碼器消耗先前重建的殘差）或RVQ風格編解碼器（其碼本需順序應用），FRAPPE的分析路徑是獨立輸入投影的易並行化有向無環圖。我們利用FRAPPE建構可變位元率RGB影像編解碼器FRAPPE-Image，並與標準影像編解碼器在率失真複雜度權衡上進行比較。在高壓縮比（約0.1 bpp）下，FRAPPE-Image提供的感知品質優於AVIF，編碼速度卻快47倍，使其能在僅使用CPU的情況下實現1080p、30fps的即時編碼。我們的程式碼與預訓練模型已公開於：https://github.com/UT-SysML/FRAPPE 。

iVGR: 透過強化學習將視覺基礎推理內化至多模態大型語言模型
iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

May 29

ByChang-Bin Zhang, Yujie Zhong, Qiang Zhang, Kai Han

儘管視覺化鏈式思考（Visually Grounded Chain-of-Thought, CoT）已成為增強多模態大型語言模型（MLLMs）細粒度感知能力的一種有前景的範式，但其在推理階段的有效性仍未被充分探討。在本研究中，我們實證發現，在推理過程中強制要求視覺化鏈式思考中的顯式物件邊界框，往往會比使用無顯式視覺化推理的標準文本鏈式思考表現更差。我們假設，視覺定位能力可以被內化至文本鏈式思考中，而強制的顯式視覺化推理會對模型的主要目標（答案預測）造成不必要的干擾。為解決此問題，我們提出「內化視覺化鏈式思考推理」（Internalizing Visually Grounded Reasoning, iVGR），這是一種新穎的強化學習框架，旨在將定位能力轉移至文本推理過程中。我們採用雙流訓練策略，透過所提出的「一致性獎勵」將文本流與高品質的視覺化流進行對齊，使模型在推理時無需顯式視覺化即可準確定位。大量實驗證明，我們的方法在細粒度基準測試中顯著優於現有基準方法，同時保留了支援工具輔助推理工作流程的靈活性。

Lumos-Nexus：用於視頻統一模型的具有同質潛在空間的高效頻率橋接
Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

May 29

ByJiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu

基於連接器的視頻統一模型在指令引導的視頻合成中展現了強大的能力，但將大型高保真生成器整合到統一訓練循環中的計算成本過高，限制了可實現的視覺品質。因此，我們提出了Lumos-Nexus，這是一個訓練高效的統一視頻生成框架，能夠在顯著提升視覺逼真度的同時，促進強大的推理驅動生成能力的發展。Lumos-Nexus採用兩階段設計：1）在訓練階段，僅將輕量級生成器與理解區塊對齊，以學習接收推理驅動的語義控制。2）在推論階段，我們引入了統一漸進頻率橋接（UPFB），以逐步將生成任務移交給共享潛在空間中的高容量預訓練生成器，實現從粗到細的細化，並在不影響推理品質的情況下生成高保真視頻。為填補推理驅動視頻生成基準的空白，我們提出了VR-Bench，該基準評估模型將推斷意圖轉化為連貫且語義一致的視頻內容的能力。大量實驗表明，Lumos-Nexus在VBench上顯著提升了視覺真實感和時間連貫性，同時在VR-Bench上展現出強大的基於推理的生成性能。程式碼和模型可於 https://jiazheng-xing.github.io/nexus-lumos-home/ 取得。

DRIFT：解耦展開與重要性加權微調以實現高效多輪優化
DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

May 29

ByJian Mu, Tianyi Lin, Chengwei Qin, Zhongxiang Dai, Yao Shu

大型語言模型日益部署於多方交互情境中，使用者或環境可反覆提供輕量級回饋。然而，此類行為的優化在實務上存在嚴峻困境：線上強化學習雖能有效處理多方動態，但因每次更新需生成完整修正軌跡而成本高昂；離線監督式微調雖具效率，卻面臨分布偏移與行為崩潰問題。為此，我們提出DRIFT（解耦展開與重要性加權微調）框架，將KL正則化強化學習目標等價於重要性加權監督式學習的理論洞見具體實踐。DRIFT透過從固定參考策略取樣離線交互軌跡、推導基於回報的重要性權重，並對所得資料集進行加權監督式微調，從而將展開與優化過程解耦。實驗結果顯示，DRIFT在維持標準監督式微調的訓練效率與簡潔性之際，能達到或超越多方強化學習基準的表現。程式碼已公開於 https://github.com/2020-qqtcg/DRIFT。

MAAT：多階段適配器感知的定向遺忘
MAAT: Multi-phase Adapter-Aware Targeted Unlearning

May 28

BySuryash Yagnik, Shubham Gaur, Saksham Thakur, Vinija Jain, Aman Chadha, Amitava Das

機器學習的遺忘評估在結構上存在偏差：「為什麼」類型的問題（探討因果與關係知識）在CounterFact中佔比低於0.06%，在ZSRE中佔0.6%，而在TOFU、MUSE及WMDP-Cyber中更佔不到1.3%。這種近乎為零的呈現比例意味著，在因果知識上失效的方法仍可在整體評分中獲得高分，且此類失效在缺乏平衡評估的情況下無從察覺。我們提出5WBENCH，一個平衡的5,000樣本基準測試，每個5W類別（誰、什麼、何時、何地、為什麼）各有1,000個樣本，首次使因果遺忘失效得以量化。利用5WBENCH，我們證明現有基準方法無法同時在「為什麼」類型問題上達到高遺忘度與高保留度：激進的遺忘會破壞保留的知識，而保守的方法則無法遺忘因果事實。「為什麼」類型的難度源於多跳推理鏈（44%的「為什麼」條目涉及此特性，其他類別則低於或等於2%），以及答案跨度超過40.1個token所導致的梯度稀釋。我們提出MAAT（多階段適配器感知的目標性遺忘），這是一個基於LoRA適配器權重的三階段框架，結合了梯度投影上升、SVD秩維度剪枝、任務向量否定，以及混合KL隱藏狀態保留修復。MAAT是首個能在「為什麼」類型因果知識上同時實現高遺忘度與高保留度的方法，在遺忘-保留帕雷托前緣上達到新的運作點。我們已公開程式碼。

任意計數
Count Anything

May 29

ByMengqi Lei, Shuokun Cheng, Wei Bao, Shaoyi Du, Jun-Hai Yong, Siqi Li, Yue Gao

儘管通用視覺模型快速進展，物件計數仍然分散在不同領域的資料集與任務表述中。現有的計數模型通常針對人群、車輛、細胞、農作物或遙感物件等特定場景設計，導致難以泛化至不同類別、視覺領域、物件尺度與密度分布。本文研究跨領域的文字引導物件計數，模型以影像與自然語言查詢為輸入，回傳一組實例對應的目標點集，其基數即為計數結果。此表述統一了類別條件計數與可解釋的空間定位。為支援此設定，我們建構了 CLOC（跨領域大規模物件計數資料集），將多樣化的公開資料來源重整為統一的基準。CLOC 涵蓋六大視覺領域：一般場景、遙感、組織病理學、細胞顯微鏡、農業與微生物學，包含約 22 萬張影像、619 個類別與 1500 萬個物件實例。基於 CLOC，我們提出 Count Anything，一種用於文字引導物件計數的通用模型。不同於主流基於密度圖的方法，Count Anything 採用離散的實例點並執行雙粒度實例列舉。區域級稀疏計數器為大尺度與稀疏目標提供物件層級的錨點，而像素級密集計數器透過密集點預測處理小型、擁擠與邊界模糊的目標。點中心監督策略能從異質標註中學習，互補計數融合則以無參數方式結合兩個計數器。大量實驗顯示，Count Anything 達到高準確度與多領域泛化能力，優於現有的開放世界計數方法。程式碼位於：https://github.com/Mengqi-Lei/count-anything。

AlphaTransit：學習設計城市規模交通路線
AlphaTransit: Learning to Design City-scale Transit Routes

May 27

ByBibek Poudel, Sai Swaminathan, Weizi Li

設計公車路網需要一連串依序的路線延伸決策，但其品質往往只有在完整網路組裝完成後才能顯現。這種延遲回饋的挑戰正是公交路線網路設計問題（TRNDP）的核心，而路線之間會產生誤導性的相互作用：看似有益於局部路線的延伸，卻可能引發轉乘瓶頸、造成重疊冗餘，或降低整體運輸效能。為了解決在延遲模擬回饋下引導路線建構的問題，我們提出AlphaTransit，這是一個基於搜尋的規劃框架，專為城市規模的公車路網設計而設計。AlphaTransit將蒙地卡羅樹搜尋（MCTS）與神經政策-價值網路相結合：政策網路負責提出路線延伸方案，價值網路則評估下游設計品質，而搜尋過程利用這些預測來優化每個決策。此方法無需在搜尋樹內執行模擬推展，即可在路線建構過程中提供決策當下的前瞻能力。我們在一個新的布魯明頓TRNDP基準上評估AlphaTransit，該基準採用真實的道路拓撲及人口普查推估的交通需求，並在混合與全公交需求設定下進行測試。在布魯明頓路網中，AlphaTransit在兩種需求設定下均達到最高的服務涵蓋率，分別為54.6%與82.1%。與未使用搜尋的強化學習相比，這分別對應到9.9%與11.4%的服務率提升；相較於未經學習引導的MCTS，則分別提升2.5%與11.2%。這些結果表明，將學習引導與MCTS結合，在公車路網設計上比單獨使用任一種方法更為有效。我們的程式碼與資料已公開於 https://github.com/poudel-bibek/AlphaTransit。

SurGe：點雲中改進的曲面幾何
SurGe: Improved Surface Geometry in Point Maps

May 29

ByKarim Knaebel, Gonzalo Martin Garcia, Christian Schmidt, Ilya Fradlin, Lucas Nunes, Daan de Geus, Bastian Leibe

近期前饋式三維重建方法在預測點雲與估計全域三維幾何方面表現出色。然而，其預測結果仍存在不準確的局部表面幾何，雖在視覺上明顯可辨，但在常用指標中僅微弱反映。為在評估中更明確凸顯此類誤差，我們引入一項點雲法向量指標，用以評估鄰近三維預測所誘導的局部表面朝向。為減少此類誤差，我們提出兩個互補組件：深度歸一化三維有限差分的點梯度匹配損失函數，以及逐步上採樣特徵並利用鄰域注意力進行局部特徵融合的鄰域注意力解碼器（NAD）。在八項零樣本單目幾何基準測試中，我們的模型 SurGe 在全域點雲相對絕對誤差（AbsRel）上取得最佳平均排名，並在局部點雲與點雲法向量評估中持續獲得改善。

Flat-Pack 基準：透過家具組裝評估大型視覺語言模型中的時空理解能力
Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly

May 20

ByAditya Chetan, Eric Cai, Peeyush Kushwaha, Bharath Raj Nagoor Kani, Utkarsh Mall, Qianqian Wang, Noah Snavely, Bharath Hariharan

大型視覺語言模型（LVLMs）的興起顯著推進了影片理解能力。然而，現有基準主要聚焦於粗粒度任務，例如動作分割、分類、字幕生成與檢索。此外，這些基準常依賴於易於透過口語辨識的實體，如家庭物品、動物、人類主體等，從而限制了其在複雜的真實場景影片中的適用性。然而，許多應用（如家具組裝、烹飪等）需要對影片進行逐步的細粒度時空理解，而現有基準對此並未充分評估。為填補此缺口，我們提出Flat-Pack Bench，一個以家具組裝任務為核心的新穎基準。此基準透過結合視覺提示（標記相關零件作為細粒度問題的參考）的多選題，評估LVLMs在細緻任務上的表現，包括組裝動作的時間排序、組裝狀態的時間定位、零件接合理解與追蹤。我們的實驗顯示，最先進的LVLMs在細粒度時空推理上表現顯著不足，突顯其在有效利用影片時間資訊、有限的追蹤能力，以及對物理接觸等空間互動理解上的限制。

當信心誤導：擴散語言模型中的後綴錨定與錨點鄰近信心調節
When Confidence Misleads: Suffix Anchoring and Anchor-Proximity Confidence Modulation for Diffusion Language Models

May 27

ByJungwon Park, Jimyeong Kim, Jungmin Ko, Nojun Kwak, Wonjong Rhee

擴散語言模型通過迭代對遮罩詞元序列進行去噪來解碼文本，因此選擇哪些位置進行解碼成為一項關鍵的推論階段決策。大多數無需訓練的解碼策略使用模型信心來選擇位置，假設高信心位置已準備好被解碼。在本研究中，我們通過探討信心何時誤導完全非自迴歸解碼，重新審視此假設。結束符記號可能獲得高信心並導致生成不完整；插入後綴錨點可緩解此問題，但會在錨點附近引發局部過度信心，導致錨點相鄰詞元過早被解碼。為解決這些問題，我們提出後綴錨點信心調節方法，這是一種簡單且無需訓練的方法，通過插入短後綴錨點來促進回應完成，並根據解碼進度調節錨點附近的信心。此方法保留了後綴錨點提升回應完成度的優點，同時減少錨點相鄰詞元的過早解碼。在純文本推理、視覺語言推理與程式碼生成基準測試中，我們的方法持續提升了基於信心的完全非自迴歸解碼表現，優於顯式的結束符記號抑制策略，並保留了完全非自迴歸生成的平行解碼優勢。

表格預測中馬可夫邊界的好、壞與醜
The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction

May 28

ByShu Wan, Abhinav Gorantla, Huan Liu, K. Selçuk Candan

在標準圖形假設下，目標變量的馬可夫邊界是能夠使其他所有特徵成為冗餘的最小特徵集合。一旦觀測到該邊界，目標變量與表格中其餘特徵便條件獨立。這對表格預測而言極具吸引力，因為它精確標示出模型所需的所有特徵欄位。然而，現代的回歸器仍會在完整特徵集上進行訓練。我們探討在SCM3K（一個包含3,450項任務的合成結構因果模型基準，特徵數量從40到1000不等，涵蓋六類結構因果模型家族，並以六種回歸器進行評估）上，馬可夫邊界對於預測是否確實有用。答案遠比理論所暗示的更為細膩。若將回歸器限制於神諭邊界，通常能顯著提升預測效果，且隨著特徵空間變得更大更稀疏，此改善幅度亦隨之增加。然而，透過因果發現來恢復邊界並在恢復後的遮罩上進行訓練的自然流程，並未能達成預期效果。現有估計器在達到邊界最有效用的區間之前便耗盡了計算預算，即使在能運行的情況下，也鮮少能超越完整特徵集的表現。我們將此歸因於三個原因：因果發現優化的是結構恢復而非預測成效；偽陰性與偽陽性在預測成本上具有極不對稱的影響；精確的馬可夫邊界僅是眾多能勝過完整特徵集的特徵子集之一。我們隨後闡述這些事實對於「與預測對齊的特徵選擇」以及「學習利用因果結構的表格模型」所帶來的啟示。

每種細胞類型只需一次點擊：面向細胞實例分割的免訓練群組交互方法
One Click per Cell Type Suffices: Training-free Group Interaction for Cell Instance Segmentation

May 28

BySanghyun Jo, Seo Jin Lee, Seohyung Hong, Yoorim Gang, Hyeongsub Kim, Hyungseok Seo, Kyungsu Kim

在细胞特异性数据集上训练的细胞实例分割模型，在面对分布外细胞类型时会出现严重的性能下降，而交互式基础模型虽能通过逐实例提示克服这一问题，但其成本对于包含数百至数千个密集实例的组织病理学图像而言过高。我们提出“分群提示”（Group Prompting）这一新范式，将交互式分割从逐实例的 O(N) 转变为逐类型的 O(T)，即每个细胞类型仅需一次点击即可分割所有该类型的实例。我们的关键发现是，在给出任何提示之前，Segment Anything Model (SAM) 的冻结图像编码器已在其特征空间中自动聚集相同类型的细胞。利用这一特性，我们提出了零训练框架 Chain-of-Prompts (CoP)，该框架通过递归扩展单个用户点击来工作：（1）通过对多尺度编码器特征进行非参数门控，识别出可靠的同类位置；（2）选择空间距离最远的可靠点作为下一提示，以最大化覆盖范围。在三个带有细胞类型标注的基准测试中，CoP 每类只需一次点击即可保留超过 90% 的逐实例性能，并在无需任何额外训练的情况下超越了全监督方法。在四个形态学同质化基准测试中，单次点击即可保留超过 99% 的性能。项目页面：https://shjo-april.github.io/Chain-of-Prompts/

輕量互動：互動式視頻世界模型的免訓練推理加速
Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models

May 29

ByJiacheng Lu, Haoyi Zhu, Sipei Yi, Enze Xie, Yu Li, Cheng Zhuo

交互式視頻世界模型能夠根據用戶控制的攝影機移動，逐塊生成視頻內容，從而支援即時遊戲模擬、虛擬場景導航以及具身人工智慧訓練等應用。然而，由於上下文記憶體不斷增長、注意力機制的二次複雜度以及重複的去噪步驟，將此類模型擴展至長時間交互軌跡的成本極高。為此，我們提出Light Interaction——一種針對交互式視頻世界模型的免訓練推理加速框架。我們的關鍵洞察在於：交互本身自然允許基於軌跡的自適應計算——探索新區域時可丟棄已檢索的空間記憶，根據局部潛在動態調整時間上下文，當攝影機重新進入熟悉區域時可重用模型早期步驟的輸出。基於此洞察，Light Interaction結合了自適應上下文管理、去噪快取加速，以及採用融合Triton內核的硬軟體協同設計3D塊稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的評估結果顯示，Light Interaction在不重新訓練模型的前提下實現了最高2.59倍的加速，同時保持具有競爭力的視覺品質。

應用地球觀測的組合式影像檢索基準測試
Benchmarking Composed Image Retrieval for Applied Earth Observation

May 23

ByBill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos

遙感影像組合檢索（RSCIR）可透過結合參考影像與文字修飾語的組合查詢，在大型衛星影像資料庫中進行搜尋。儘管RSCIR提供了一個靈活的介面來表達特定檢索意圖，但現代組合方法對地球觀測（EO）影像的可遷移性及其與實際EO工作流程的相關性，仍尚未得到充分探索。為解決此問題，我們建立了一個統一的基準測試與應用導向研究。首先，我們系統性地調整與評估六種視覺-語言主幹網路下的代表性組合影像檢索方法，並在標準化協議下於PatternCom資料集上進行分析，探討其在不同主幹網路、組合策略及查詢類型中的表現。其次，我們引入了xView2-CIR，這是一個以變化為核心的災害與損害監測資料集，其檢索條件取決於場景身分與目標災後狀態。結果顯示，無須訓練的組合方法能為EO檢索提供強大且可擴展的基準，而以變化為核心的檢索則面臨與屬性檢索不同的挑戰，特別是在需要保留場景身分的需求上。整體而言，本研究為RSCIR建立了實用基準，並將組合檢視為遙感影像檢索、資料庫探索與變化分析的輔助工具。資料集與程式碼可於https://github.com/billpsomas/rscir取得。

AnyMo：基於遮罩建模的任意模態條件式動作生成擴展
AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

May 28

ByYiheng Li, Zhuo Li, Ruibing Hou, Yingjie Chen, Hong Chang, Hao Liu, Shiguang Shan

條件式人體動作生成仍是計算機視覺與機器人學中的一項基本挑戰。儘管已有顯著進展，現有方法常受限於固定模態配置與任務特定架構，導致跨模態互動以及多模態條件合成中的尺度法則仍 largely 未被充分探索。其中一個關鍵瓶頸在於缺乏大規模、模態對齊的動作數據，這限制了模型在各種控制訊號上的泛化能力。在本工作中，我們提出 OmniHuMo——一個大規模、高品質的資料集，包含超過 5000 小時的動作數據與 320 萬個序列，並配備精確對齊的多模態標註（例如文字、語音、音樂與軌跡）。基於 OmniHuMo，我們進一步提出 AnyMo——一個統一的多模態框架，結合基於殘差 FSQ 的動作標記器與可擴展的遮罩建模轉換器，能在任意模態組合下實現高品質動作合成。大量實驗顯示，AnyMo 不僅能達到高保真度合成，還能在空間與風格屬性上提供靈活控制。

一種用於連續多無人機追蹤的拓撲感知時空交接框架
A Topology-Aware Spatiotemporal Handover Framework for Continuous Multi-UAV Tracking

May 15

ByJianlin Ye, Christos Kyrkou, Panayiotis Kolios

將無人飛行載具（UAV）整合至智慧型運輸系統（ITS），可為交通監控提供綜觀視野，然而其大規模部署受限於軌跡片段化問題——即車輛身分標記在多UAV視野（FOV）間無法持續留存。儘管現有先進框架在單一無人機影像的局部軌跡萃取與穩定性優化方面表現卓越，但其運作模式常如獨立資料孤島，產生不連續的軌跡，進而阻礙起訖點推估等網路層級分析。本文提出一套即時多攝影機多車輛追蹤（MCMT）系統，旨在處理全域身分持續性問題。為解決俯視視角中外觀型重新識別（Re-ID）的視覺模糊性與計算成本，我們引入輕量級的「基於拓撲的時空交接機制」。我們採用YOLO11與ByteTrack實現高通量平行管線，以處理並行4K視訊串流。核心貢獻在於一套基於確定性佇列的匹配演算法，該演算法利用幾何重疊與虛擬車道離散化，經由先進先出（FIFO）佇列預測性地管理身分交接。在包含交叉路口與合流車流等複雜城市環境的實驗結果顯示，連續車流中的交接成功率（HOSR）達99.8%，大幅超越以重新識別為基線的方法（74.1%），同時驗證了邊緣端部署的可行性。原始碼公開於 https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system。

受記憶體限制但不受頻寬限制：批次1大型語言模型解碼中的物理AI推論鴻溝
Memory-Bound but Not Bandwidth-Limited: The Physical AI Inference Gap in Batch-1 LLM Decode

May 28

ByJosef Chen

物理AI系统，包括机器人、自动驾驶汽车、具身智能体以及边缘副驾，其运行推理工作负载通常与云端大语言模型（LLM）服务不同：采用单流、batch-1的自回归解码模式，即单一机器人、摄像头数据流或用户会话需等待生成下一个token。此类工作负载通常被描述为受内存带宽限制。每个解码步骤需流式加载模型权重与活跃的KV缓存，因此延迟应与峰值HBM带宽成正比。我们表明，这一描述虽正确但不完整。我们测量了三款7至8B级GQA Transformer模型在四种NVIDIA GPU（H100 SXM5、A100-80GB SXM4、L40S及L4）上的batch-1解码性能，评估了2048至16384范围的上下文长度，并在受控的bf16 SDPA设置下产生了44个有效数据点。结果显示，峰值HBM带宽的利用率随峰值带宽提升而下降。以Qwen-2.5-7B在ctx=2048条件下的典型测试为例，L4达到了约81%的分析内存下限，而H100仅达到27%。物理AI解码虽以内存为瓶颈，但更快的存储器并未带来成比例的延迟改善。我们通过CUDA Graphs的A/B实验验证了这一缺失因素。在H100上，ctx=2048条件下，CUDA Graphs在N=10次新会话中使解码延迟提升了1.259倍（95%自助法置信区间为1.253-1.267）。而在L4上，同样操作仅提升1.028倍。这分离出了启动端开销——它在快速GPU上显著可见，但在较慢、受带宽限制的GPU上基本隐藏。部署层面的启示是：内存优化带来的收益仅在运行时实际兑现时才有效。在L4上，bf16解码已接近内存下限，但常见的量化路径并未实现预期的4倍权重流量缩减：bnb-nf4达59.36毫秒/步，AutoAWQ+Marlin达45.24毫秒/步（基线为bf16的62.32毫秒/步）。而采用Ada调优int4内核的GPTQ+ExLlamaV2，则达到了17.36毫秒/步。

離散策略最佳化的引導對比標記信用分配
Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization

May 29

ByShufan Li, Konstantinos Kallidromitis, Akash Gokul, Yuta Kyuragi, Aditya Grover

基於群體優勢的強化學習方法（如GRPO和DAPO）已在多個領域展現出優異性能，包括數學推理與文字到圖像生成。然而，此類方法依賴樣本層級的獎勵，導致無法捕捉細粒度的詞元層級貢獻，因均勻分配信用至所有詞元而引入關鍵限制。為解決此問題，我們提出引導對比策略優化（Guidance Contrastive Policy Optimization, GCPO），這是一種新穎演算法，能透過對比正負提示下的模型預測，實現逐詞元的信用分配。GCPO並非均勻廣播樣本層級的優勢，而是將詞元層級的優勢分配至與這些對比預測差異成比例的程度，從而提供更精確且更具資訊性的學習訊號。實驗結果顯示，GCPO能強調語義相關區域，例如在文字到圖像生成中對齊文字提示的視覺區域，以及在思維鏈任務中推理軌跡內的關鍵關鍵詞。透過廣泛實驗，GCPO在文字到圖像生成與思維鏈推理基準上均持續優於GRPO和DAPO基線，證實其作為離散策略學習中通用且可擴展的最佳化策略之有效性。

超越回憶：行為規格作為AI個人化的詮釋層
Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization

May 27

ByAarik Gulaya

若人工智慧代理為個人代行決策，則該決策必須與使用者保持一致。我們引入「表徵準確度」來衡量系統忠實捕捉個人詮釋的程度。我們將詮釋層操作化為「行為規格」。我們的參考實作將個人資料大幅壓縮為詮釋模式，作為語言模型的上下文。我們以一個原型基準測試來評估該規格，該測試基於保留的行為預測，並由經過校準的五位法官大型語言模型小組進行評分。我們分別測試該規格，並將其與一系列上下文條件組合測試：完整原始語料庫、完整提取事實，以及四種商用記憶系統（Mem0、Letta、Supermemory、Zep）。在14個公共領域自傳式語料庫中，該規格在總體上提升了表徵準確度，並幾乎消除了模型的模糊表述。它恢復了原始語料庫所能提供的大部分內容，而上下文成本僅約為後者的1/25。無論預訓練基準線為何，該規格都能將受試者提升至共同的預測水準；因此，絕對提升幅度在基準線最低時最大，這顯示相關群體為任何在預訓練中未能充分表徵的個體。在需要詮釋的問題上，提升幅度最大，此時提供詮釋層能讓模型展現出提取事實或原始語料庫無法達成的行為。反之，在需要回憶的問題上，該層可能會造成干擾而非助益。我們得出結論：表徵準確度不同於回憶，且人機對齊取決於使用者被表徵的精確程度。表徵準確度使該對齊成為可測試的。

頻率引導的動作擴散：經由子頻率流形遍歷
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal

May 27

ByJunlin Wang

透過行為模仿學習視覺運動策略，通常涉及模仿人類操作員所收集的專家示範。然而，人類自然的示範中固有地包含高頻噪聲，例如間歇性的抖動、停頓及動作顫動。訓練策略直接模仿這些原始軌跡，無可避免地會使模型繼承這些次優行為。此種病態現象在以擴散為基礎的策略中尤為明顯，因為反覆的去噪步驟可能在犧牲有意義的細微細節下，無意間放大高頻偽影。為了解決這些限制，我們提出了一種新穎的基於頻率的演算法，能夠實現隱式頻譜操控與平滑動作生成。我們的方法，即頻率引導算子（FGO），通過逐步引導含噪樣本穿過具有漸擴頻譜帶的中間次頻率流形，來操控擴散策略的生成過程。經過來自五個基準的十五項機器人操作任務驗證，FGO 在提升動作平滑度與時間一致性方面表現優異，同時保留了成功執行任務所需的細節。專案網站：https://henrywjl.github.io/frequency-guidance-operator/

超越整體模型：深度多變量時間序列預測的系統性組件層級基準測試
Beyond Holistic Models: Systematic Component-level Benchmarking of Deep Multivariate Time-Series Forecasting

May 26

ByShuang Liang, Chaochuan Hou, Xu Yao, Shiping Wang, Hailiang Huang, Songqiao Han, Minqi Jiang

先前在多变量时间序列预测领域的研究主要聚焦于开发复杂的整体模型，而本研究则倡导转向对组件影响的颗粒化解构式理解。我们提出TSCOMP，这是首个大规模基准测试，系统性地将深度预测方法拆解为其核心细粒度组件——涵盖序列预处理、编码策略、网络架构（包括专用型与大规模时间序列模型）以及优化方法。通过采用受限正交实验设计与广泛评估，我们开展了多视角分析，揭示了不同骨干网络、数据特征及其交互作用下的组件效能。除提供洞见外，该基准还建立了包含超过20,000项模型-数据集评估的细粒度性能语料库，为自动化组件选择的学习提供支持，从而实现在新数据集上的零样本模型构建。实验表明，尽管方法本身简洁，这种基于语料库的驱动方式始终优于现有最新方法，验证了我们评估设计的合理性，并确认系统化的组件选择胜过人工设计的复杂架构。所有代码与性能语料库均已公开于 https://github.com/SUFE-AILAB/TSCOMP。