HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

46 papers found

OmniDirector：無需交叉配對數據的通用多拍相機克隆
OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Jun 11

ByJiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan

從參考影片中複製攝影機運動是一項影片生成的重要任務，因為影片能提供直觀且精確的控制。現有方法要嘛直接使用無法處理多鏡頭生成的參數化表示，要嘛合成交叉配對數據，但由於數據稀缺，導致在複雜攝影機運動複製上表現不佳。為解決這些問題，我們提出一種通用的攝影機運動表示法，將攝影機編碼為網格運動影片。此攝影機網格以視覺方式呈現攝影機參數，並支援整合多樣軌跡以進行多鏡頭影片生成。在此基礎上，我們提出OmniDirector——一個統一的框架，透過百萬規模的攝影機網格-影片配對進行訓練，協調角色、動作與攝影機，為多模態擴散Transformer提供導演級別的控制。此外，我們設計了一種新穎的層級式提示擴展代理，透過理解訊號關係來系統性描述攝影機運動與視覺內容，和諧地整合不同控制訊號。大量實驗證明我們框架具有卓越的效能與出色的可控性。專案頁面：https://ymlinfeng.github.io/OmniDirector.github.io/

APPO：智能體程序性策略優化
APPO: Agentic Procedural Policy Optimization

Jun 10

ByXucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu

近期在智能體強化學習（RL）方面的進展大幅提升了大型語言模型代理的多輪工具使用能力。然而，現有方法多數基於粗略的啟發式單元（如工具調用邊界或固定工作流程）進行信用分配，使得難以識別哪些中間決策影響了下游結果。在本研究中，我們從兩個角度探討智能體強化學習：何處進行分支，以及分支後如何分配信用。我們的初步分析顯示，有影響力的決策點廣泛分布於生成的序列中，而非集中於工具調用，而僅憑 token 熵並不可靠地反映其對最終結果的影響。基於這些觀察，我們提出智能體程序性策略優化（APPO），將分支與信用分配從粗略的交互單元轉移至序列中的細粒度決策點。APPO 使用結合 token 不確定性與後續延續策略誘導似然增益的分支分數來選擇分支位置，從而實現更具針對性的探索，同時過濾掉虛假的高熵位置。它進一步引入程序級優勢縮放，以更好地在分支展開間分配信用。在 13 個基準測試上的實驗顯示，APPO 持續將強智能體 RL 基準提升近 4 個百分點，同時保持高效的工具調用和行為可解釋性。

記憶是重構而非提取：大型語言模型代理的圖形記憶
Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

Jun 4

ByShuo Ji, Yibo Li, Bryan Hooi

儘管近期有所進展，大型語言模型代理在處理長篇互動歷程的推理時仍面臨困難。現行的記憶增強代理依賴於靜態的「先擷取再推理」典範，這種僵化的管線設計使得它們無法根據推理過程中發現的中間證據動態調整記憶存取方式。為了解決這個問題，我們提出了MRAgent框架，該框架結合了關聯記憶圖與主動重構機制。我們將記憶表示為「線索-標籤-內容」圖，其中關聯標籤作為語義橋樑，連接細粒度線索與記憶內容。在此結構上運作的主動重構機制，將大型語言模型的推理直接整合至記憶存取中，使代理能根據累積的證據逐步探索並剪裁檢索路徑。此舉確保記憶檢索能根據推理脈絡動態調整，同時避免因無限制擴張而導致的組合爆炸問題。在LoCoMo基準與LongMemEval基準上的實驗結果顯示，相較於強基線方法，我們的方法在效能上顯著提升（最高達23%），同時大幅降低詞元消耗與執行時間成本，凸顯了主動與關聯重構在長時程記憶推理中的有效性。

從聊天機器人到數位同事：邁向持久自主人工智慧的典範轉移
From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

Jun 12

ByYongheng Zhang, Ziang Liu, Jiaxuan Zhu, Shuai Wang, Xiangqi Chen, Haojing Huang, Jiayi Kuang, Siyu Chen, Ao Shen, Hao Wu, Qiufeng Wang, Qian-Wen Zhang, Junnan Dong, Wenhao Jiang, Ying Shen, Hai-Tao Zheng, Yinghui Li, Di Yin, Xing Sun, Philip S. Yu

大型語言模型（LLMs）正經歷從對話生成器到具備推理、行動、記憶與自我改進能力的整合型AI系統的根本性轉變。我們將此過渡概念化為從聊天機器人到數位同事的轉變：從對話式回應轉向持續性工作。我們沿著兩個緊密耦合的維度來組織此轉變。首先，在認知核心層面，LLMs正從聊天機器人時代由下一個詞元預測驅動的「快速思考」系統，邁向利用推理時間計算、思維鏈推理、反思、過程監督及強化學習的思考型LLM，以支援更審慎且可靠的認知能力。其次，在工具擴增的任務執行層面，LLMs正從以臨時方式調用外部資源的工具調用代理，進展至配備持久工作區、技能、驗證迴圈與治理機制的OpenClaw風格工作站系統（OpenClaw）。「工作區+技能」典範透過狀態持久性、可重複使用程序、任務閉合性與經驗重複使用，將偶發性工具使用轉變為同事式協作。我們檢視數據建構從指令-回應對到狀態-動作-觀察軌跡的轉變，以及評估從靜態基準到沙盒化、可稽核、自我演進的AI生態系統的演進。

Orchestra-o1：全模態智能體編排
Orchestra-o1: Omnimodal Agent Orchestration

Jun 10

ByFan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Hao Wu, Jinyang Wu, Donghao Zhou, Zhihong Zhu, Zheng Lian, Xin Wang, Pheng-Ann Heng

近年来，智能体群的成功应用将基于大语言模型的智能体从单智能体工作流范式转向多智能体系统，凸显了任务分解与协作中智能体编排的重要性。然而，现有编排框架局限于少数模态类型，难以泛化到异构模态共存互动的复杂场景。这一问题在全模态场景中尤为突出——此类任务要求统一理解并协调文本、图像、音频和视频等多元输入。本研究提出全模态智能体编排框架Orchestra-o1，旨在支持跨多模态的高效智能体协作。Orchestra-o1引入统一编排机制，实现模态感知的任务分解、在线子智能体专业化及并行子任务执行。这种可扩展设计使智能体系统能有效应对涉及异构信息源的复杂现实任务，在OmniGAIA基准测试中准确率超越第二名方法10.3%。此外，我们提出决策对齐组相对策略优化（DA-GRPO），这是一种高效的智能体强化学习方法，用于训练Orchestra-o1-8B模型，使其在所有现有开源全模态智能体中达到最先进性能。

HarnessX：一個可組合、自適應及可演化的代理框架工廠
HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

Jun 12

ByTingyang Chen, Shuo Lu, Kang Zhao, Weicheng Meng, Hanlin Teng, Tianhao Li, Chao Li, Xule Liu, Jian Liang, Zhizhong Zhang, Yuan Xie, Heng Qu, Kun Shao, Jian Luan

AI智能體的效能關鍵取決於運行時框架，該框架包含提示、工具、記憶以及控制流程，這些元素調節著模型如何觀察、推理和行動。然而，當今的框架大多仍依賴手工設計且靜態：每個新模型或新任務仍需定制化的支撐結構，而執行過程中產生的豐富軌跡鮮少被提煉為系統性的改進。我們提出 HarnessX，一個用於可組合、自適應和可演化的智能體框架的打造平台。HarnessX 通過替換代數組裝類型化框架原語，通過 AEGIS（一個基於軌跡的多智能體演化引擎，其基礎是符號適應與強化學習之間的運作映射）進行自適應，並通過將軌跡轉化為框架更新和模型訓練信號來閉合框架-模型循環。在五個基準測試（ALFWorld、GAIA、WebShop、tau^3-Bench 和 SWE-bench Verified）中，HarnessX 平均提升了 +14.5%（最高 +44.0%），在基線最低的測試中提升最大。這些結果表明，智能體的進步不必僅來自模型規模擴展：從執行反饋中組合和演化運行時接口是一個可操作且互補的槓桿。完整的程式碼庫將在未來版本中開源。

重新思考長影片中的RAG：檢索什麼以及如何使用？
Rethinking RAG in Long Videos: What to Retrieve and How to Use It?

Jun 11

ByYuho Lee, Jisu Shin, Nicole Hee-Yeon Kim, Jihwan Bang, Juntae Lee, Kyuwoong Hwang, Fatih Porikli, Hwanjun Song

檢索增強生成正從文字擴展至長篇、自我中心視角影片，此類系統須跨越多種模態與時間粒度選取與查詢相關的片段。然而，影片RAG的進展受制於兩項落差：現有基準容許無需影片即可回答查詢，模糊了檢索錯誤；先前方法對每個查詢採用單一模態－粒度配置，忽略了片段層級的變異性。我們提出V-RAGBench基準（由⟨查詢、證據片段、答案⟩三元組構成），支援忠實且去耦合的檢索與生成評估；以及CARVE方法，一種簡單做法，能平行執行跨配置的檢索器，並運用片段自適應重排序，為每個片段找出勝出配置。隨後，每個片段以其在檢索階段選出的勝出配置進入生成器，產生一種交錯式證據形式，其中片段層級的決策在兩個階段間傳遞。CARVE勝過八個近期影片RAG基線，提供給生成器的片段交錯多種配置而非共享單一配置，此行為是查詢層級方法無法達成的。

OmniVideo-100K：透過結構化腳本與證據鏈進行音視頻推理的數據集
OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

Jun 12

ByXinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan

現有的音視頻問答（QA）自動化流程普遍採用「影片-字幕-QA」模式。然而，此類方法通常將影片分割成短片段，並分別為音頻與視覺模態生成獨立描述。這種解耦處理切斷了聲音與其視覺來源之間的內在關聯，而獨立的片段處理更常導致同一實體在不同片段中出現不一致的描述。此外，將長文本理解與QA合成耦合為單一步驟，往往使模型侷限於局部事件，產生的問題缺乏長期時間關聯與深度跨模態推理。為解決這些問題，我們提出一種自動化資料引擎，具備兩種機制：(1) 實體錨定影片腳本化（Entity-Anchored Video Scripting），將影片轉換為結構化腳本，包含摘要、主要實體列表及逐段音視頻描述。實體列表作為全域先驗，確保跨片段指涉一致性並重建音視頻關聯。(2) 線索引導QA生成（Clue-Guided QA Generation），引導模型先從腳本中挖掘跨片段、多模態的線索，再基於這些高價值線索生成QA對。利用此流程，我們建構了指令調優資料集OmniVideo-100K以及人工驗證的測試集OmniVideo-Test。在OmniVideo-100K上對VITA-1.5、Qwen2.5-Omni-7B與Qwen3-Omni-30B進行微調後，在OmniVideo-Test上效能提升最高達20.59%，且在Daily-Omni與JointAVBench等既有基準上展現強大的泛化能力（最高提升12.64%）。

從通用人工智慧到超級人工智慧
From AGI to ASI

Jun 10

ByTim Genewein, Matija Franklin, Alexander Lerchner, Laurent Orseau, Samuel Albanie, Adam Bales, Cole Wyeth, Stephanie Chan, Iason Gabriel, Joel Z. Leibo, Allan Dafoe, Marcus Hutter, Thore Graepel, Shane Legg

過去十年間，建構人類層級通用人工智慧已從遙不可及的推測，轉變為許多大型人工智慧組織具體鎖定的未來十年目標。達成此目標將對人類社會產生深遠且廣泛的影響，從而為未來十年衍生出諸多複雜問題。本報告探討在機器智慧連續體中，人工智慧本身如何在後通用人工智慧世界中持續發展。此連續體的終點——通用AI，已在理論上獲得充分理解，為本報告的核心焦點提供部分形式基礎：從人類層級通用人工智慧過渡至通用人工智慧超級智能——直觀上可理解為比大型人類組織更具智慧與認知能力的系統。在定義超級智慧後，報告討論了從通用人工智慧邁向超級智慧的四種潛在路徑：擴展規模通用AI、AI典範轉移、遞迴式改進，以及從大規模多智能體集體中湧現超級智慧。接著探討這些路徑中可能存在的摩擦與瓶頸。判定這些摩擦的影響可忽略或重大，將衍生一系列具體的開放性研究問題。由於預測超級智慧進展存在極大不確定性，無法排除未來數年AI發展可能持續加速的可能性。這意味著因人類層級通用人工智慧問世而引發單一變革性階躍變遷的圖景，或許並不準確。更貼切的展望，可能是由AI驅動的科技突破在多個科學與技術領域引發連串變革性社會轉變。為此願景做好準備，需要全球規模且跨學科的大規模努力。

較小模型是GRPO中策略層級多樣性的自然探索者
Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

Jun 2

ByYiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu

我們識別出在大語言模型的組相對策略優化（GRPO）中增強生成多樣性（rollout diversity）的新維度。雖然GRPO依賴多樣化的生成軌跡，但現有策略主要透過注入更多token層級的隨機性來提升多樣性，這可能引入逐步驟雜訊並導致不連貫的軌跡。我們發現，同一模型家族中較小的模型天生具有更高的策略層級多樣性——隨著樣本數量增加，其pass@k指標優於較大模型即為明證。與token層級雜訊不同，這種多樣性具有時間相關性，保持邏輯連貫性，並為梯度估計提供結構化探索訊號。因此我們提出S2L-PO（小到大的策略優化）框架，利用固定的小型模型作為自然探索器來訓練大型模型。為平衡探索與利用，我們設計了漸進式退火策略，從離線的小模型生成平滑過渡到大學習者自身的取樣。這一轉變巧妙避免了因小模型容量限制導致的中期訓練性能下降，實現更快的收斂並解鎖更高性能上限。S2L-PO在多種數學推理基準測試中提升了準確率（例如，使用1.7B探索器引導8B模型時，AIME 24準確率提升8.8%），同時減少了生成計算量。

跳過一層還是循環它？學習大型語言模型中的層程序
Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Jun 4

ByZiyue Li, Yang Li, Tianyi Zhou

大型語言模型（LLMs）透過遵循固定深度與順序、非遞迴地執行所有層來進行推論。我們揭示了無需訓練、靈活且動態的「層級程式」（PoLar）廣泛存在——其中預訓練層可被封裝為模組，並根據每個輸入跳過或循環，以形成客製化的執行程式。對於多數輸入而言，大幅縮短的程式執行不僅能達到相同甚至更高的準確率，而原始LLM的錯誤預測亦可透過使用較少層的替代程式加以修正。這些觀察表明，推論過程中存在多種超越標準前向傳播的有效潛在計算方式。為在實務中高效實現PoLar，我們提出一個輕量級PoLar預測網路，該網路學習針對每個輸入生成動態跳過或重複預訓練層的執行程式。在數學推理基準上的實驗顯示，PoLar在準確率上持續優於標準推論及先前的動態深度方法，且往往在執行較少層的同時達成此效果；這些優勢在分佈外評估中仍得以維持。我們的結果表明，固定深度執行僅捕捉到LLM潛在推理能力中狹隘的一部分。

測量大型語言模型在誤導性醫療情境下的認知韌性
Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

Jun 10

ByHongjian Zhou, Xinyu Zou, Jinge Wu, Sean Wu, Junchi Yu, Bradley Max Segal, Tobias Erich Niebuhr, Sara Amro, Michael Petrus, Sheikh Momin, Alexandra M. Cardoso Pinto, Rachel Niesen, Laura Sophie Wegner, Dhruv Darji, Jung Moses Koo, Joshua Fieggen, Kapil Narain, Mingde Zeng, Lei Clifton, Linda Shapiro, Fenglin Liu, David A. Clifton

大型語言模型（LLMs）現已在醫學執照考試中取得專家級分數，這助長了一種假設：高分即代表安全的醫療判斷，而患者也越來越頻繁地將其用於健康建議。我們表明此假設是脆弱的：當將誤導性上下文注入LLMs原本能夠正確回答的問題時，它們會放棄正確答案。我們將在對抗性上下文中維持正確判斷的能力稱為「認知韌性」，並引入MedMisBench來衡量此能力。MedMisBench包含10,932道醫學問題項目，以及48,889組誤導性上下文與選項對，涵蓋醫療推理、代理能力與患者旅程評估。在11種模型配置中，平均準確率從原始問題的71.1%下降至集中誤導性上下文下的38.0%，攻擊成功率達51.5%。最具破壞性的注入是正式、類似規則的虛構建構：以權威框架呈現的虛假陳述達到69.5%的攻擊成功率，而例外毒化型說法則達到64.1%。一個來自7個國家的14名臨床專家小組，在38.2%的受審查案例中識別出嚴重的潛在危害。MedMisBench揭示了LLMs在醫療環境評估中的結構性盲點：現有基準衡量的是模型知道什麼，而非它們在誤導性上下文下是否能保持正確的醫療判斷。

RedAct：編輯代理能力痕跡以保護程式性技能
RedAct: Redacting Agent Capability Traces for Procedural Skill Protection

Jun 10

ByShuwen Xu, Zhitao He, Yi R. Fung

使用者依賴執行軌跡來觀察代理行為、診斷故障並確保問責性。這些軌跡包含豐富的程序細節，包括工具調用、中間決策及錯誤恢復邏輯。然而，這類細節可能暴露私有的程序技能，使下游方法無需存取模型權重或技能檔案即可還原關鍵公式、門檻值及策略。為量化此風險並評估保護措施，我們建構了CapTraceBench基準測試，涵蓋75項專業長期任務及七個領域共154項策展技能。同時，我們提出RedAct（https://github.com/XuShuwenn/RedAct）保護性軌跡發布框架：該框架能定位受保護的關鍵資訊、在保留驗證者關鍵證據的同時改寫軌跡，並嵌入行為浮水印以支援下游來源分析。在具代表性的軌跡重用方法中，RedAct將未經處理軌跡的標準化技能轉移率（NST）從44.7%–67.1%降至低於無技能基準線，同時保留審計證據。其獨立行為浮水印在最多1.9%的虛警率下，達到93.6%–100.0%的真實偵測率。這些結果將公開代理軌跡視為安全介面，並顯示選擇性刪減可在不移除審計證據的前提下，降低程序能力外洩的風險。

LLM智能體能理解程式碼儲存庫
LLM Agents Can See Code Repositories

Jun 12

ByDongjian Ma, Silin Chen, Yufei Yang, Yulin Shi, Yanfu yan, Xiaodong Gu

由大型語言模型驅動的編碼智能體在軟體工程任務中展現出強大的效能。然而，多數智能體幾乎完全以文字形式處理程式庫，這與人類開發者透過資料夾層級結構與依賴關係等視覺架構來定位大型程式碼庫的方式有所不同。隨著多模態大型語言模型的發展，智能體能否有效利用程式庫的視覺表徵仍是一個開放性問題。本文針對基於LLM的智能體在儲存庫層級問題解決上，首次進行了系統性的視覺表徵實證研究。我們評估了四種最新的多模態模型。結果顯示，純視覺的設定模式不僅會降低準確率，還會增加代幣成本，因為智能體缺乏足夠的符號細節，必須透過重複的視覺查詢來補償。相對地，將程式庫結構的視覺圖表作為輔助模態，與標準文字介面整合使用，能幫助智能體更有效地理解結構：輸入代幣消耗量最多減少26%，同時問題解決的準確率維持不變或獲得提升。視覺化在錯誤定位階段以及智能體自主控制探索深度時尤為有效。這些發現為下一代編碼智能體提供了實用的文字與視覺混合設計方向。

RepFusion：利用多模態先驗在表徵空間中進行降噪
RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

Jun 12

ByXichen Pan, Aashu Singh, Satya Narayan Shukla, Xiangjun Fan, Shlok Kumar Mishra, Saining Xie

大型語言模型（LLM）廣泛應用於文字到影像（T2I）系統中，但其功能通常僅限於文字編碼，而去噪任務則由新訓練的生成骨架負責。表示自編碼器（RAE）的出現，將生成目標轉向具有語義結構的視覺表示，從而創造出與預訓練LLM先驗更相容的潛在空間。受到多模態LLM（MLLM）的啟發——在該架構中，僅需一個MLP投影器即可將乾淨的視覺表示與預訓練LLM對齊——我們將MLLM本身重新設計為雜訊表示編碼器，將此機制從乾淨輸入擴展至含雜訊輸入。我們提出RepFusion，該方法利用產生的MLLM輸出作為擴散轉換器的條件訊號。在相似推理預算下的受控比較中，RepFusion優於那些將同等容量分配給新初始化去噪器的基準方法。這些結果表明，MLLM為去噪視覺表示提供了強大的先驗，且透過條件化於動態變化的雜訊表示，測試時計算可高效地花費於現代T2I系統中反覆進行的MLLM條件化過程。

iMaC：將動作轉化為運動與接觸影像以應用於具身世界模型
iMaC: Translating Actions into Motion and Contact Images for Embodied World Models

Jun 8

ByZhenyu Wu, Xiuwei Xu, Yukun Zhou, Yifan Li, Qiuping Deng, Xiaofeng Wang, Zheng Zhu, Bingyao Yu, Ziwei Wang, Jiwen Lu, Haibin Yan

具身世界模型已成為視覺機器人決策與交互環境模擬的重要範疇。然而，傳統具身框架依賴於低維結構化動作向量（如關節角度與末端執行器位姿），這些向量存在表達能力有限、跨多樣化本體泛化能力差以及對複雜物理交互動態建模不自然等侷限。為解決這些問題，本文提出iMac（Image as Action Control，圖像即動作控制）——一種新穎的統一控制範式，將原始視覺圖像視為具身世界模型的固有動作表徵。不同於傳統顯式運動學動作編碼，iMac將連續視覺操作形式化為基於圖像的動作標記，這些標記內在地包含了空間運動意圖、交互幾何約束與細微物理動態。我們構建了一個雙分支具身架構，包含圖像-動作編碼器與動態世界預測器：編碼器將目標驅動的視覺圖像壓縮為緊湊的動作嵌入，而預測器則學習以圖像動作為條件的環境轉移規則，從而實現高保真未來狀態預測與閉環具身控制。大量實驗在公開的具身操作基準測試與真實機器人場景中進行。結果表明，iMac在預測準確率、任務成功率與跨場景泛化能力上優於基於向量的動作控制基線。此外，我們的圖像-動作設計消除了對人工定義動作空間的依賴，實現了對異質具身智能體的靈活通用控制。該工作為具身世界模型提供了創新的視覺-動作視角，為可擴展的機器人感知與操作提供了簡單而有效的範式。

Hy-Embodied-0.5-VLA：從視覺-語言-行動模型到現實世界機器人學習堆疊
Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

Jun 12

ByHe Zhang, Lingzhu Xiang, Haitao Lin, Zeyu Huang, Minghui Wang, Dingyan Zhong, Yubo Dong, Yihao Wu, Yongming Rao, Dongsheng Zhang, Wanjia He, Ling Chen, Kai Huang, Jiahao Chen, Sichang Su, Xumin Yu, Ziyi Wang, Chengwei Zhu, Xiao Teng, Yuchun Guo, Yufeng Zhang, Yuandong Liu, Rui Wang, Zisheng Lu, Han Hu, Zhengyou Zhang

在本報告中，我們介紹了 Hy-Embodied-0.5-VLA，簡稱 HyVLA-0.5，這是一個涵蓋完整機器人學習技術棧的端到端系統，包括：資料收集、模型設計、持續預訓練與監督微調、RL 後訓練以及實際部署。每個組件在此技術棧中各自扮演獨特角色。

Pythagoras-Prover：通過增強的Lean形式化推進高效形式化證明
Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

Jun 10

ByJoshua Ong Jun Leang, Zheng Zhao, Mihaela Cătălina Stoian, Qiyuan Xu, Haonan Li, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia

现代Lean定理证明器仅在大量训练和推理计算资源下才能实现高性能，部分原因是经过验证的证明数据稀缺，以及形式化证明搜索过程中产生的长推理轨迹，这使得监督微调（SFT）和采样成本高昂。我们提出Pythagoras-Prover，一个面向实际计算预算的高效开源Lean定理证明器系列。该系列涵盖两代生成范式：参数规模为4B和32B的自回归模型，以及首个概念验证的基于扩散的证明器（4B），该证明器在推理时通过迭代优化生成Lean证明。在训练效率方面，我们构建了一个经过Lean验证的语料库，按难度分为简单、中等和困难问题，用于课程式监督微调，使模型能够从较短、较简单的证明逐步掌握较长、较困难的证明技能。在监督微调过程中，我们采用动态证明推理过滤方案，保留有信息量的证明轨迹，同时将每个实例的上下文预算限制在8k个token以内。我们还引入了增强式Lean形式化（ALF），该方法将稀缺的经过验证的语料库扩展为形式化陈述的变体，通过自蒸馏生成额外训练信号，而无需对每个突变实例进行形式化验证。通过扰动已知问题同时保留其形式化特征，ALF减少了对任何陈述表面形式的依赖。实验结果表明，在MiniF2F-Test测试集上，Pythagoras-Prover-4B在pass@32指标上以86.1%的成绩超越了DeepSeek-Prover-V2-671B的82.4%，且参数规模减少约167倍；而Pythagoras-Prover-32B在MiniF2F-Test上以93.0%的成绩创下开源方法的最优水平，并在PutnamBench的672个问题中成功解决93题。我们发布了MiniF2F-ALF，一个经ALF突变处理的、对数据污染敏感的基准测试集，所有经过评估的模型在该测试集上的准确率均出现下降；在此基准上，我们的32B模型仍保持最强性能，而4B模型则与先前最优的开源方法Goedel-Prover-V2-32B持平。

無需隱藏提示！僅透過展示性修訂即可操弄AI同儕審查
No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions

Jun 11

ByXu Yang, Zhizhou Sha, Junbo Li, Jian Yu, Yifan Sun, Matthew Zhao, Jinrui Fang, Xinyue Guo, Yining Wu, Xu Hu, Yifu Luo, Qiang Liu, Zhangyang Wang

隨著AI生成的審查意見從實驗性工具邁入同儕審查基礎設施，大多數穩健性問題的討論聚焦於隱藏指令與提示注入等明確攻擊手段。本研究探討一種更棘手且更具政策相關性的失效模式：無隱藏文字、無提示注入，亦未改變方法、實驗、圖表、方程式、證明或數值結果。攻擊者僅修改呈現層面內容，例如摘要、貢獻定位、相關文獻、討論及敘事結構。我們提出「對抗性重塑」：一種利用AI審查系統回饋進行呈現層面修訂的封閉循環攻擊，同時保持科學證據不變。在三種主流AI審查系統中，對抗性重塑達到75.1%的攻擊成功率，平均分數提升+1.21/10。此效果無法以一般文字潤飾解釋。我們更發現，改變審查者對論文解讀方式的策略（如重新定位相關文獻與擴展分析討論）明顯優於表面修改（如局部潤飾、表格格式調整與演算法框呈現）。我們的分析揭露兩個更深層的結構性失效模式。首先，AI審查系統「易受取信」勝過「被說服」：凸顯優勢能可靠增加感知價值，而試圖消解弱點往往適得其反。其次，AI審查系統可能混淆「展現解決限制」與「實際解決限制」的區別，使未經改變的證據被重新解讀為更強烈的科學貢獻。這些結果顯示，部署風險不僅來自惡意隱藏指令，更源於論文呈現本身已成為可優化的表面。我們發布無污染滾動基準測試與攻擊框架，用以檢測AI審查系統在僅修改呈現層面時，是否仍能錨定於科學內容。

VISTA：用於GUI定位的視角一致自我驗證訓練
VISTA: View-Consistent Self-Verified Training for GUI Grounding

Jun 12

ByXinyu Qiu, Yunzhu Zhang, Heng Jia, Shuheng Shen, Changhua Meng, Linchao Zhu

在對 GUI 定位應用群體相對策略優化（Group Relative Policy Optimization, GRPO）時，生成結果（rollouts）是從單一螢幕截圖視圖中採樣的；群組在困難樣本上往往全部失敗，在簡單樣本上則全部成功，致使無法產生有用的相對優勢。為此，我們提出 VISTA（View-Consistent Self-Verified Training，視圖一致自我驗證訓練），這是一種基於 GRPO 的訓練框架，透過從同一 GUI 實例的多個保留目標視圖（target-preserving views）來建構每個比較群組。每個視圖皆由裁切（crop）生成，裁切時保持目標元素可見並精確重新映射其邊界框，因此模型的生成結果是在語義等價但幾何不同的輸入之間進行比較。為穩定短座標生成而不致使強化學習淪為無條件模仿，VISTA 進一步加入一個自我驗證的跨視圖錨點（self-verified cross-view anchor）：即一個使用優勢加權損失（advantage-weighted loss）最佳化的神諭答案（oracle answer），該答案不納入群體基準，且僅在模型產出最大獎勵生成結果（maximum-reward rollout）時啟用。在五個 GUI 定位基準測試與多個 Qwen 骨幹模型上，VISTA 一致提升了定位準確率。在 ScreenSpot-Pro 上，它將 Qwen3-VL 4B/8B/30B-A3B 的準確率分別從 55.5/52.7/53.7 提升至 63.4/65.8/67.0。穩健性分析進一步顯示，最差視圖準確率更高，預測翻轉率更低。

MBench：視頻世界模型記憶能力的全面基準
MBench: A Comprehensive Benchmark on Memory Capability for Video World Models

Jun 8

ByShengjun Zhang, Zhang Zhang, Simin Huang, Zhenyu Tang, Hanyang Wang, Chensheng Dai, Min Chen, Yifan Li, Yuxin Li, Yingjie Chen, Hao Liu, Chen Li, Jing Lyu, Yueqi Duan

近期基于视频的世界模型研究取得了显著进展，展现出合成高保真视觉序列的前所未有能力。然而，在视觉上合理的视频生成与世界模型的功能需求之间仍存在根本性差距，尤其是在长期时间跨度内维持稳定且合理的内部状态方面。现有基准测试主要关注视觉质量、运动连贯性及文本-视频对齐能力，却很大程度上忽视了记忆——这一世界模型在长期时间跨度与复杂交互中保持一致性的核心能力。为弥补这一不足，我们提出了MBench，一个专为量化评估视频世界模型记忆能力而设计的综合性基准测试。我们将视频世界模型的记忆能力系统性地分解为三个层次互补的核心维度：实体一致性、环境一致性与因果一致性，并进一步细化为12个可量化子维度，以实现对长期记忆的全面刻画。该基准测试基于严格筛选的真实拍摄长视频构建，并采用基于规则的量化矩阵与视觉语言模型进行客观全面的一致性评估。对主流先进视频世界模型的广泛评估揭示了现有方法在长期状态保持方面的关键系统性局限，为推进该领域研究提供了标准化基准与清晰的研究方向。

μ_0：一個可擴展的3D交互軌跡世界模型
μ_0: A Scalable 3D Interaction-Trace World Model

Jun 11

BySeungjae Lee, Yoonkyo Jung, Jusuk Lee, Jonghun Shin, Amir Hossein Shahidzadeh, Yao-Chih Lee, H. Jin Kim, Jia-Bin Huang, Furong Huang

捕捉行為如何引發物理變化的世界模型，使得機器人學習無需依賴特定本體的行為標籤即可擴展。像素空間影片模型提供廣泛的視覺先驗，但將模型容量耗費在密集外觀重建上；而直接行為模型則需要特定本體的標籤，阻礙了可擴展性。我們提出 μ_0，一種基於三維軌跡的可擴展世界模型。與預測密集像素或直接建模行為不同，μ_0 預測物體、工具、手部及接觸區域等顯著互動點的平滑三維軌跡，形成一種緊湊且與本體無關的運動介面。為實現從多樣化影片來源進行訓練，我們的 TraceExtract 系統透過選取關鍵點、建構全局對齊軌跡，並將運動片段與層級化語言描述進行關聯，自動提取三維監督訊號。此 TraceExtract 監督訊號透過結合預訓練的視覺語言骨幹與模組化軌跡專家來預訓練 μ_0，其中軌跡專家以 B 樣條控制點表示每個查詢，並預測未來軌跡。實驗顯示，μ_0 在二維與三維軌跡預測上均優於基線模型，包括軌跡預測模型與標記化 VLM 方法。由於 μ_0 可凍結並重複使用，它能與行為專家配對，應用於下游機器人本體。儘管缺乏行為預訓練，所產生的軌跡條件化策略在效能上可與經行為監督預訓練的 VLA 模型（如 π_0）競爭。這些結果確立了三維軌跡作為跨本體操作的擴展且可遷移表徵。

仲裁代理：持續監控多代理對話以偵測湧現性失調
The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

Jun 9

ByFilippo Tonini, Federico Torrielli, Anton Danholt Lautrup, Peter Schneider-Kamp, Mustafa Mert Çelikok, Lukas Galke Poech

隨著由多個語言模型代理構建的人工智慧系統變得越來越普遍，它們被越來越多地用於共同做出決策：討論、協商，並執行共享任務。雖然個別代理在單獨測試時可能表現得與目標一致，但它們之間的互動方式可能引發問題。我們引入了仲裁者（Arbiter），這是一個專為即時監控多代理對話而設計的代理，能夠識別哪些參與者可能表現出偏離一致性的行為。仲裁者在其有限的「檢查預算」下運作，這意味著它必須謹慎決定如何運用其資源。隨著逐步觀察對話，它可以選擇等待、提問某個參與者、檢查內部資訊（例如系統提示或推理軌跡），或記錄可疑行為。最終，它會產出一份報告，指出偏離一致性行為的可能來源。我們在五種對話情境下評估仲裁者，範圍從高風險財務建議的模型生物到評估感知與串通代理，並測試了五種能力遞增的工具配置以及兩種骨幹模型。我們發現仲裁者能在對話結束前可靠地檢測出偏離一致性的代理，而主動檢查工具能同時提升檢測準確度與速度。權重誘導的偏離一致性最難被偵測，而指令誘導的偏離一致性即使在被動觀察下也能可靠識別。記錄工具展現出雙重效果，以犧牲精確度為代價提升召回率。這些結果表明，持續且具預算意識的監控能有效捕捉偏離一致性的行為，且對多代理系統的監督可能需要將審計者視為過程中的積極參與者。程式碼可在 https://github.com/aisilab/arbiter 取得。

Avatar V：擴展視頻參考的虛擬形象視頻生成
Avatar V: Scaling Video-Reference Avatar Video Generation

Jun 11

ByBenjamin Liang, Ce Chen, Desmond Lin, Ivan Somov, Jiajun Zhao, Jiewei Yuan, Jingfeng Zhang, Junhao Huang, Nik Nolte, Pedram Haqiqi, Penghan Wang, Rong Yan, Rui Zhang, Sam Prokopchuk, Sivan Wang, Viktor Goriachko, Yi Ren, Yuanming Li, Yutao Chen, Zhenhui Ye, Zhibin Hong, Zilong Nie, Zujin Guo

生成不仅在外观上相似、更在行为上可识别的虚拟形象视频——即忠实复现目标人物的说话节奏、手势倾向与表情动态——仍是一项开放挑战。现有方法主要依赖单张静态图像作为条件，但此类图像提供的人物身份信息不足，且无法捕捉动态运动特征；此外，标准的像素级损失函数难以充分服务于决定虚拟形象逼真度的感知关键面部区域。我们提出Avatar V，一个面向生产规模的框架，通过视频参考条件化的身份建模来解决上述局限。该模型并非将身份信息压缩为固定大小的嵌入向量，而是直接以参考视频的完整标记序列为条件，通过注意力机制基于参考上下文学习复现静态身份属性（面部几何、皮肤纹理）与动态行为模式（说话节奏、微表情）。我们引入了稀疏参考注意力——一种非对称机制，能够以线性复杂度对任意长度的参考视频进行条件化；此外，还构建了运动表征流以实现闭环说话风格迁移，以及继承完整参考条件化的身份感知超分辨率精修器。上述技术依托于一个数据引擎，该引擎从5000万原始视频中精选了超过1亿条训练片段，并采用包含流匹配预训练、个性微调、两阶段蒸馏（10倍以上加速）及RLHF对齐的五阶段训练流程，部署在数千张GPU上。Avatar V可生成长度不限的1080p视频，在跨场景基准测试中实现了身份保持、唇形同步及生成质量方面最优的性能，在自动化指标与人工评估上均持续优于包括Seedance 2.0、Kling O3 Pro、Veo 3.1及OmniHuman 1.5在内的领先系统。

RhymeFlow：基於非同步去噪流排程的無需訓練影片生成加速方法
RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling

Jun 4

ByChensheng Dai, Shengjun Zhang, Yifan Li, Zhang Zhang, Zheng Zhu, Yueqi Duan

基於擴散變換器（DiTs）的視頻生成模型在視頻合成中展現了卓越性能，但由於3D注意力機制的二次複雜度，其推理延遲與計算成本居高不下。現有加速方法主要透過稀疏注意力與KV快取等技術，降低單一去噪步驟內的計算複雜度。然而，這些方法嚴格遵循標準擴散管線的固有約束：目標視頻序列中的每一幀都必須在所有擴散時間步中經歷完整且密集的去噪過程。我們觀察到，由於相鄰幀之間的內容與運動對應關係，當錨定具有關鍵語義轉變的關鍵幀時，其他幀的中間狀態往往遵循更可預測的軌跡，這表明這類均勻密集的去噪過程對自然視頻數據而言本質上存在冗餘。為此，我們提出RhymeFlow，一個免訓練框架，可解耦不同幀的去噪軌跡。具體而言，我們首先識別出一組稀疏的「關鍵關鍵幀」，它們主導潛在語義的演化。接著，僅對這些關鍵幀進行密集的逐步去噪以確保結構完整性，而非關鍵幀則逐步跳過去噪步驟以減少計算開銷。由於非關鍵幀被跳過的中間狀態會破壞關鍵幀去噪步驟中的時間連貫性，導致視覺品質下降，我們進一步引入潛在軌跡投影模組，使關鍵幀能與完整且時序一致的序列表徵進行交互。在當前基於DiT的視頻生成模型上進行的廣泛實驗表明，我們的方法在推理速度與視覺品質上均優於現有基準方法。

LoRA優化中縮放因子的隱藏力量
The Hidden Power of Scaling Factor in LoRA Optimization

Jun 11

ByZicheng Zhang, Haoran Li, Jiaxing Wang, Guoqiang Gong, Anqi Li, Yudong Hu, Ting Xiong, Yurong Gao, Junxing Hu, Zhida Jiang, Yifeng Zhang, Pengzhang Liu, Qixia Jiang

在低秩适配（LoRA）中，缩放因子α常被视为学习率的附属补充，但其在优化过程中的具体作用尚未得到充分理解。本文揭示出，α与学习率的函数作用存在本质差异：α是有效优化的主导驱动力，其带来的性能提升无法通过单纯调整学习率复现。通过大量实证分析与理论化的“信号-漂移”框架相结合，我们发现了LoRA缩放机制的三个关键发现：第一，LoRA的频谱抑制特性平滑了优化曲面，导致标准超参数设定过于保守，形成优化缺口；第二，在利用平滑性加速收敛时，α通过增强任务信号且不提高漂移比，其表现优于学习率；第三，最优缩放因子与秩之间存在次线性关系，可由平方根律精确刻画（系数异常之大），揭示了现有秩关联启发式方法的缩放不足。基于这些洞见，我们提出LoRA-α这一极简框架，将α恢复至其原则性范畴，使LoRA能够兼容标准小学习率。跨多样化任务的广泛评估表明，LoRA-α在简化超参数搜索的同时持续提升性能，充分释放LoRA的学习潜能。

您的LLM何时可引導？
When is Your LLM Steerable?

Jun 10

ByChenrui Fan, Yize Cheng, Ming Li, Soheil Feizi, Tianyi Zhou

激活引導提供了一種輕量級方法，可在推理階段控制語言模型的行為，但其成功與否高度依賴於提示詞、概念、模型及引導配置。要找到成功引導的適用範圍與界限，通常需要耗費大量資源進行網格搜尋，並在事後評估完整的自回歸生成結果。本研究探討是否能根據模型在生成過程初期（例如生成前幾個詞元後）的內部狀態，預測其可引導性，並進一步利用此類預測器提升引導成功率。為此，我們首先引入 ASTEER 測試平台，包含 140 萬次引導生成結果，涵蓋 150 個概念，並為每次引導標記成功或失敗。利用此測試平台，我們透過提取特徵來分析模型早期的解碼動態，這些特徵比較了引導前後不同層與初始解碼步驟的隱藏狀態。這些特徵有助於理解引導效應如何在層與詞元位置之間傳播，從而為可引導性預測提供關鍵資訊。隨後，我們基於這些特徵訓練了一個梯度提升決策樹（GBDT）分類器，用以預測干預是否會導致欠引導、成功或過度引導，而無需進行完整生成。該預測器在未見過的概念上達到了約 0.7 的宏觀 F1 分數，顯示早期隱藏狀態已編碼了大量關於最終引導效能的結構化資訊。我們進一步將此可引導性預測器作為引導強度搜尋的指導，從而以極小的解碼成本達到近乎最優的效能。

ClinHallu：診斷醫學MLLM推理中階段性幻覺的基準
ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

Jun 12

BySicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang, Yichen Qian, Weihua Chen, Fan Wang, Lei Zhu

建立可信賴的醫療多模態大型語言模型（MLLMs）對於可靠的臨床決策支援至關重要。現有的醫療幻覺基準主要聚焦於資料收集，但往往忽略推理過程中幻覺的起源。我們發現，幻覺來源因樣本而異：錯誤可能來自於視覺辨識錯誤、不正確的醫學知識回憶，或是推理整合上的缺陷。為實現源頭層級的幻覺診斷，我們提出 ClinHallu，一個用於醫療 MLLM 推理過程階段性幻覺診斷的基準。ClinHallu 包含 7,031 個經驗證的實例，每個實例都附有分解為「視覺辨識」、「知識回憶」及「推理整合」三個階段的結構化推理軌跡。我們也採用階段替換干預方法，測量修正特定階段對最終答案的影響。除評估外，我們證明基於軌跡的微調能減少階段性幻覺。ClinHallu 提供了一個細粒度的幻覺測試平台，用於診斷並緩解醫療 MLLM 的推理失敗。該基準已公開於 https://github.com/alibaba-damo-academy/ClinHallu。

LoSoNA：群體對話中局部社會規範適應的基準
LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

Jun 12

ByMateusz Winiarek, Maksymilian Bilski, Mateusz Jacniacki

線上群組聊天是具有本地對話規範的社交空間，這些規範通常未被明確說明。基於大型語言模型的代理能否辨識並適應這些規範，以及其意願如何，仍有待深入探討。我們提出LoSoNA基準，用於評估多人聊天中的本地社交規範適應能力。每個場景均提供一個經過整理的群組聊天記錄給主體模型，其中非主體參與者展現出一項隱藏的本地規範，隨後透過一個最終誘發輪次強制模型回應，藉此判斷主體是否推斷出該規範。我們在四種提示條件下評估了八個前沿及開放權重模型，這些條件差異在於模型被指示將先前對話視為其應答依據的明確程度。多數模型在單純提示下表現有限；明確的規範感知提示則帶來不均勻的提升，其中Gemini 3.1 Pro達到84.2%，Claude Fable 5達到81.6%，而其他幾個模型僅有微小進步甚至出現倒退。LoSoNA透過測試模型能否從先例推斷本地對話規範並在單輪群組聊天回應中加以運用，為近期呼籲評估大型語言模型社交能力的研究作出了貢獻。

跨尺度科學挑戰之AI智能體基準評估
Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Jun 10

ByTianyu Liu, Allen Xin Wang, Antonia Panescu, Lisa Xinyi Chen, Wenxin Long, Xinyu Wei, Yueqian Jing, Ziyao Zeng, Jihang Chen, Sihan Jiang, Ziqing Wang, Siyi Gu, Siyu Chen, Xinyang Hu, Haoran Shao, Leqi Xu, Wangjie Zheng, Zhiyuan Cao, Ada Fang, Botao Yu, Kunyang Sun, Rex Ying, Arman Cohan, Qingyu Chen, Lingzhou Xue, Kaize Ding, Yuanqi Du, Wengong Jin, Zhuoran Yang, Marinka Zitnik, James Zou, Hua Xu, Hongyu Zhao

AI代理正日益被用於加速科學發現，然而它們在真實研究場景中的實際能力仍未被充分理解。現有的AI代理基準測試很少能捕捉科學工作所需的複雜性、異質性及延伸推理，而科學任務的基準測試往往將研究簡化為靜態、直接的題目，並對互動式評估提供有限支持。在此，我們介紹SciAgentArena，這是一個系統性的基準測試，旨在評估AI代理在多個領域新興需求驅動的真實科學研究場景中的表現。SciAgentArena包含約200項任務，具備逐步驗證機制，並提供一個互動式、與代理無關的環境，用於評估多樣的AI代理。透過此基準測試，我們發現當前的代理能夠在明確定義的數據分析工作流程中有效貢獻，特別是在任務結構與評估標準清晰的情況下。然而，它們在不同科學情境中的表現仍不均衡：代理難以產生真正新穎的見解、維持自我導向的探索，以及為開放式研究問題制定穩健的解決方案。我們進一步歸納了代理間的常見失敗模式，並找出提升其可靠性、自主性及科學推理能力的機會。總體而言，SciAgentArena提供了一個實用的框架，用以衡量AI代理在科學領域的進展，並引導未來能應對複雜科學挑戰之代理的設計。完整程式碼、任務與數據集可透過此連結取得：https://sciagentarena.github.io/。

密集監督，稀疏更新：論在策略蒸餾的稀疏性與幾何
Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Jun 11

ByGuo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye

近年來，在策略蒸餾（On-policy distillation, OPD）已成為一種重要的後訓練流程，因為它結合了兩個理想的要素：在策略的學生軌跡與密集的教師監督。然而，這種混合方式如何改變模型的參數，至今仍不清楚。針對多組語言模型與視覺-語言模型配對及多種使用場景，我們的分析得出兩項主要發現。在稀疏性方面，OPD 風格的更新幅度小且在座標上呈現稀疏性。這些更新分布在網路各層，通常以前饋網路（FFN）部分的比重較大。這種稀疏結構在實務上有用：僅訓練所發現的子網路，即可達到近乎完整的 OPD 性能。然而，在我們的最佳化器消融實驗中，誘導稀疏性的 SGD 最佳化器表現不如 AdamW，原因可能在於密集的教師監督保留了異質的逐座標準則梯度尺度，而 AdamW 的自適應尺度在此情況下仍具效用。在幾何結構方面，這些更新在數值上是滿秩的，但在頻譜上高度集中；它們大多偏離原始權重的主要奇異子空間，並不成比例地落在原始權重接近零的座標上。這些發現表明，密集教師監督並未使 OPD 轉變為一般的密集參數改寫；相反地，OPD 保留了在策略後訓練的重要幾何特徵。

AFFORDANCE20Q：從物理屬性評估可供性推理
AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties

Jun 12

ByYifan Jiang, Meige Yang, Zitong Li, Jay Pujara

Affordance推理，即根據物體的物理屬性（如形狀和材質）推斷其行為可能性，是人類物理理解的基礎，且對大型語言模型（LLMs）愈發關鍵。然而，現有的affordance基準大多在評估設定中暴露明確的物體身分，使模型能依賴記憶的物體-affordance映射而非基於物理屬性進行推理。為填補此缺口，我們提出Affordance20Q，一個新穎的affordance推理基準，以20個問題遊戲的形式呈現，且不揭露物體身分。在每場遊戲中，模型透過詢問關於物理屬性的「是/否」問題，從候選集合中識別隱藏物體的affordance。Affordance20Q包含1,009場遊戲，涵蓋454個物體與59種affordance，所有數據均經人工篩選、修正與標註。我們對15個最先進的大型語言模型進行全面實驗，發現其與人類表現存在約20個百分點的巨大差距。基於KL散度的資訊增益（IG）分析進一步顯示，模型在遊戲進行中未能提出具鑑別力的問題。為縮小差距，我們開發了知識庫錨定的規則歸納法（KARI），這是一條基於LLMs的流程，能產生奠基於知識庫（KBs）證據的affordance規則。KARI使開源LLMs的表現提升高達15.2個百分點，然而知識庫的涵蓋範圍有限，限制了進一步的進步。我們已將所有程式碼與數據公開於 https://github.com/1171-jpg/Affordance20Q.git。

人工推理的謎團：探討大型推理模型中的生成-評估差距
An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models

May 31

ByMingzhong Sun, Teresa Yeo, Armando Solar-Lezama, Tan Zhi-Xuan

人類推理研究顯示，人們在評估推理時通常比從零開始產生推理更為擅長。相比之下，大型推理模型（LRM）經過訓練，擅長生成長鏈推理來解決複雜問題。那麼，LRM在評估推理方面的表現如何？我們利用有效答案無效推理（VAIR）資料集進行研究：該資料集包含數學問題及帶有瑣碎推理缺陷但答案正確的解題過程，旨在將推理評估與推理生成這項混淆變項分離。與人類相比——我們發現人類在評分此類問題時僅比解題表現差6%——LRM則展現出顯著的生成-評估差距：前沿模型在評估VAIR解題過程時得分低至48%，儘管其解題生成近乎完美。為何會出現此矛盾？透過思維鏈（CoT）分析，我們發現了答案確認偏誤的證據：LRM往往先產生答案再驗證正確與否，而非仔細核對每個推理步驟，即使注意到異常推理，也會編造合理化解釋。線性探針進一步證實這點：雖然LRM的激活狀態編碼了部分有效推理的表徵，但未能穩健地將VAIR解題過程表徵為無效。對最終答案表徵進行因果修補後，LRM的判定與激活狀態均發生翻轉，顯示答案有效性正是模型確認偏誤的成因。這些發現揭示了當前主流推理訓練方法的重大局限——該方法激勵LRM生成並確認導向正確答案的推理，卻未能促使其穩健評估底層推理邏輯。

P3D-Bench：針對參數化三維生成與結構推理的多模態大型語言模型基準測試
P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

Jun 9

ByYikang Yang, Zhanpeng Hu, Youtian Lin, Mengqi Zhou, Jingxi Xu, Feihu Zhang, Jiaheng Liu, Yao Yao

多模態大型語言模型能編寫程式碼以產生複雜的程式，也能利用程式進行3D建模，這為借助它們的先驗知識、世界知識與推理能力來進行3D生成開闢了新途徑。然而，現有的基準評測極少透過程式碼來評估3D建模。此類建模對程式碼的要求不僅在於可執行性：從文字或視覺規格出發，模型必須生成一個參數化3D程式，該程式在幾何上精確、語義上對齊且組合件一致。我們提出P3D-Bench，一個專為參數化3D生成設計的基準評測。不同於3D網格，參數化3D程式會揭露明確的尺寸、建構操作與零件關係，從而揭示模型是否還原了設計的結構，而不僅是其外觀。在統一的協議下，P3D-Bench涵蓋三大任務系列（文字轉3D、圖像轉3D及組合件3D），並針對每個輸出評估其可執行性、幾何保真度、拓撲結構、文字約束、多視角語義對齊以及零件層級結構。我們在400個文字案例、400個圖像案例及203個註釋組合件上，評測了前沿多模態大型語言模型與僅文字大型語言模型，並以領域特定模型作為參考點。廣泛的評估得出三項發現。首先，組合件是難度最高的設定，模型仍無法將多個零件組合成連貫的結構。其次，模型通常能還原目標物體的整體形狀與語義識別，但未能重現輸入所指定的精確參數化幾何。第三，在組合件上的零件層級建模仍顯薄弱，模型既無法還原每個零件的幾何，也無法確定正確的零件數量。這些結果將P3D-Bench定位為在參數化3D生成中評估精確參數化幾何與零件層級結構的基準評測。

APT：行動專家預訓練提升視覺-語言-行動策略的指令泛化能力
APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

Jun 10

ByKechun Xu, Zhenjie Zhu, Anzhe Chen, Rong Xiong, Yue Wang

視覺-語言-動作（VLA）模型透過結合預訓練視覺語言模型（VLM）與連續動作專家，在操控任務上展現出強大效能，然而在處理分佈外（OOD）語言指令時仍存在泛化能力不足的問題。其中一項已知挑戰來自VLA數據的結構不平衡：相較於視覺與動作內容，語言的多元性遠低於兩者，導致策略容易傾向視覺捷徑。儘管離散動作方法透過視覺-語言共同訓練可緩解此問題，但連續動作專家缺乏這類保護機制——它們從隨機初始化開始訓練，完全依賴不平衡數據，導致產生雜訊梯度，不僅破壞VLM的表現，也無法充分發揮其語言能力。本研究從貝葉斯觀點出發，將策略分解為與語言無關的視覺-動作（VA）先驗，以及語言條件化的VLA似然，並提出APT——一種強調動作專家預訓練的兩階段訓練方法。第一階段中，動作專家在凍結VLM的基礎上，僅以視覺-動作對進行預訓練，藉此繞過語言不平衡問題。第二階段則透過閘控融合機制注入語言標記，在整合VLM特徵的同時保留已習得的視覺運動先驗。APT可適用於主流VLA架構，包括π型與GR00T型架構。全面實驗證實，APT在未見過的指令與組合性任務上均能穩定提升表現。專案頁面：https://xukechun.github.io/papers/APT/

世界追蹤：超越可見的生成式像素對齊幾何
World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

Jun 11

ByHao Zhang, Mohamed El Banani, Jen-Hao Cheng, Paul Zhang, Yi Hua, Ben Mildenhall, Christoph Lassner, Narendra Ahuja, Gengshan Yang

圖像轉3D的方法常在忠實度與完整性之間取捨：深度估計器雖錨定於輸入像素，卻止步於可見表面；而圖像轉3D模型雖能生成完整的形狀，卻常與輸入對齊不良。我們提出「世界追蹤」（World Tracing），一種生成式像素對齊幾何表示法，可在預測與觀測像素對齊的3D點之同時，完成可見表面以外的幾何結構。針對每個輸入像素，世界追蹤預測一組有序的相機空間3D點堆疊，第一層代表可見表面，後續層則依序代表與被遮擋表面的前後交點。我們透過世界追蹤擴散變換器（WT-DiT）實例化此表示法，該模型將多層幾何視為獨立的去噪令牌，並透過分解式與全局注意力機制相互耦合。WT-DiT以像素空間流匹配與混合噪聲排程進行訓練，平衡可見表面的重建與被遮擋幾何的生成。世界追蹤在物體、場景與動態基準測試中，於可見表面重建及完整幾何生成方面均表現優異，超越深度預測器與圖像轉3D生成器。它同時保留了2D到3D的對應關係，能支援文字驅動的3D場景編輯、以幾何為條件的全新視角影片合成，以及無需訓練即可整合紋理網格生成器。

AlloSpatial：基礎模型中空間推理的代理式框架
AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

Jun 8

ByShouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Jingzhi Li, Yubin Wang, Xingxing Wei

多模態基礎模型（Multimodal Foundation Models, MFMs）已取得顯著進展，但在物理世界的空間推理方面仍顯脆弱。其關鍵瓶頸在於無法將局部自我中心（egocentric）觀察轉化為全局異中心（allocentric）空間表徵。為解決此問題，我們提出 AlloSpatial，一個用於基礎模型中異中心空間認知的智能體框架（agentic framework）。AlloSpatial 引入了 World2Mind，一個即插即用的認知映射沙盒（cognitive mapping sandbox），可將自我中心觀察轉換為結構化的異中心先驗資訊，包括異中心空間樹（Allocentric-Spatial Trees）與路線圖（route maps），支援查詢物體拓撲、幾何關係、可通行性及軌跡。為了在雜訊重建與模糊視覺證據下可靠地利用這些先驗資訊，AlloSpatial 引入了空間推理約束機制（Spatial Reasoning Harness），用於工具使用判斷、模態分離線索收集以及幾何-語義仲裁。我們進一步透過冷啟動強化學習（cold-start reinforcement learning），結合約束機制門控的軌跡層級獎勵，將此過程內化於 Qwen3-VL 中。在 VSI-Bench 與 MindCube 上的實驗顯示，AlloSpatial 在無需訓練的情境下，可使專有模型提升 5% 至 18%；而僅使用 ASTs 即使移除視覺輸入，仍能支援強大的空間推理。經過訓練的 AlloSpatial 智能體進一步超越了較大的通用模型與具競爭力的空間基線，表明結構化的異中心表徵、主動工具使用及可驗證推理，為具備空間能力的基础模型提供了一條有前景的路徑。

Two-Fidelity Best-Action Identification for Stochastic Minimax Tree

Jun 1

ByPeter Chen, Xi Chen

We study fixed-confidence best-action identification (BAI) in stochastic minimax trees. This problem is increasingly relevant in modern AI planning, where deep minimax search and Monte Carlo Tree Search (MCTS) with language model long rollouts face a fundamental tradeoff: heuristic evaluations are cheap but biased, while accurate rollouts are reliable but prohibitively expensive. We propose 2FFS, a two-fidelity tree-search algorithm that brings multi-fidelity flat bandit ideas into trees. The algorithm combines minimax-style fast expansion with MCTS-style stochastic sampling, adaptively deciding when to exploit cheap biased evaluations and when to invoke expensive accurate evaluations for local certification. We prove fixed-confidence correctness, establish finite stopping for exact identification, and give a polynomial-depth cost upper bound for general-depth trees. Across numerical stochastic-tree experiments, 2FFS uses substantially fewer samples and computational operations comparing to existing BAI-MCTS baseline.

幻覺起始的最快偵測：延遲界與學習型CUSUM統計量
Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics

Jun 10

ByIgor Itkin

基於詞元的幻覺偵測器以分類器的方式進行評估，透過所有詞元的AUC來衡量；然而，串流監控器則以其反應時間來評判：即從幻覺發生到警報觸發之間所經過的詞元數量。我們將幻覺起始偵測表述為一個最快變化檢測問題。一個關於潛在忠實/幻覺狀態的一階馬可夫模型（經RAGTruth驗證）將此任務置於經典變點理論的框架內，並導出Lorden關於檢測延遲的下界：在誤警率為0.01時，約為1.3個詞元。接著我們證明，一個因果遞迴標記器實際上就是一個具有學習增量形式的CUSUM；在相同的誤警率下，它能在11至13個詞元內完成檢測，而線性逐詞元基線則需31個詞元。透過控制分解，我們將此優勢主要歸因於更好的逐詞元得分，而非時間累積效應。一個Donsker-Varadhan類型的資訊率最優定理解釋了剩餘的數量級差距：學習到的得分僅實現了特徵所承載散度的四點五分之一，而重新校準無法消除此缺陷，其餘部分則來自有限時域效應。分類指標掩蓋了這種延遲結構；而序列分析使其得以被量化。

FVSpec：現實世界中基於屬性的測試作為 Lean 挑戰
FVSpec: Real-World Property-Based Tests as Lean Challenges

May 31

ByQuinn Dougherty, Max von Hippel, Hazel Shackleton, Mike Dodds

我們提出了一個基準測試，用於評估AI模型與智能體在真實世界形式化軟體驗證任務上的表現。首先，我們從真實的Python程式庫中蒐集了11,039個基於屬性的測試（PBT），接著自動將其中的2,772個（佔25%）轉換成9,415個帶有sorry佔位符的Lean 4規格（每個PBT約有3個形式化版本；當沒有任何一個版本在品質指標上明顯佔優時，我們保留多個嘗試）。將PBT轉譯為Lean規格極具挑戰性：這需要在Lean中建模Python語義、推斷命令式PBT所編碼的邏輯屬性，並處理在鮮少使用的語言中進行依賴型別程式設計的固有困難。我們描述了一個由三個智能體組成的LLM管線，用於將PBT轉譯為Lean規格，評估其覆蓋率與品質指標，並為使用多種自動化與基於模型的方法進行證明生成提供基準。所有程式碼（蒐集器與智能體）與資料（PBT與Lean規格）均為開放原始碼。我們的基準旨在推動AI輔助形式化驗證真實世界軟體這一尚未充分探索問題的進展，而隨著AI生成越來越多全球程式碼，此問題正日益受到關注。

ActiveMimic：基於主動感知的第一人稱視頻預訓練
ActiveMimic: Egocentric Video Pretraining with Active Perception

Jun 4

ByXingyao Lin, Guojin Zhong, Tianyi Lu, Ziyi Ye, Yichen Zhu, Zuxuan Wu, Yu-Gang Jiang

以自我為中心的人類影片為預訓練提供了一種可擴展的機器人數據替代方案，然而，在此類影片上預訓練的模型始終表現不如在機器人數據上預訓練的模型。我們將此差距歸因於一個缺失的信號——自我中心影片中的主動感知行為，其中人類在操作過程中不斷重新定位自身視角，導致標準處理流程將其視為雜訊的攝影機運動。為了解決這個問題，我們提出ActiveMimic，一個預訓練框架，能從單一穿戴式RGB攝影機中恢復同步的攝影機與手腕軌跡，將攝影機運動建模為視角行動，並從野外自我中心人類影片中共同學習主動感知與操作，再適應至目標機器人。實證上，跨越多項具不同主動感知需求任務的真實世界實驗顯示，ActiveMimic始終優於在人類影片上預訓練的基準方法，並能與在機器人數據上預訓練的最新模型表現相當。進一步分析提供的證據表明，主動感知能力源自自我中心人類影片的預訓練，而非機器人專屬的微調，從而確認主動感知是解鎖自我中心人類影片用於機器人預訓練的關鍵。

CARVE：面向互動駕駛的基於包絡之被否决機動可認證低成本修正
CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving

May 31

ByYifan Wang

互動式駕駛揭露了一種在基於規則的自動駕駛系統中容易被忽略的失效模式：即便非優先權主體進行小幅度的合法讓步即可恢復可行性，但自車候選方案仍可能具有負值的硬性規則邊界。現有的規則手冊、防護機制及可達域濾波器擅長否決不安全行為，而基於預測的規劃器則建模可能的回應。然而，二者均無法在運行時提供一個證明物件，用以說明：哪些有界多主體編輯能修復該操控行為、編輯的歸屬方、該請求是否在路權容許範圍內，以及若請求未被遵循時自車的備用方案為何。我們將此遺失的物件定義為「互動修復認證」，並提出 **CARVE**——一個無需預測的認證層，建構於自車歸屬與他車歸屬的戰術算子所構成的有限格之上。他車歸屬的請求僅在 \(B_j(s) = β(π_j)α_j^{\max}(s)\) 的「合作包絡」內允許，該包絡將運動學可達性與規範性優先權予以區分。最終的認證記錄了：約束規則、修復類別、修復集合、責任加權成本分攤及備用方案。在 589 個基於 Lanelet2 幾何的 INTERACTION 重播情境中，CARVE-Greedy 接受了最初被否決的 98.64% 操控行為，並恢復了 370/378 個人類判定為誤否決的案例，同時維持 589/589 的路權尊重、零優先權主體假陽性、以及 400/400 的壓力情境否決。我們證明了認證的正確性、結構性路權尊重、有限格精確最小性、備用應變能力及歸責一致性條件。CARVE 不預測也不要求其他駕駛者配合；它僅認證所提議的互動是否在宣告假設下為有界、可歸因且符合規範允許。

AdaSR: 自適應串流推理與階層式相對策略最佳化
AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

Jun 12

ByJunlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen

大型推理模型通常遵循「先讀後思考」的模式：它們先觀察完整輸入，在靜態上下文中進行推理，然後產生答案。然而，許多現實場景本質上是動態的，例如音訊和視訊串流，其中資訊以連續串流的形式到達，模型必須在不完整觀察下進行推理、更新和回應。近期的串流推理方法允許模型在「閱讀」的同時進行「思考」，但它們在很大程度上依賴於對預先構建軌跡的監督模仿，這限制了其靈活性。在本文中，我們提出 AdaSR，一個自適應串流推理框架，使模型能夠在輸入串流期間進行推理，並在串流完成後進行最終深思，從而學習何時思考，以及在不同階段分配多少計算資源。為了優化這種分層推理過程，我們引入了分層相對策略優化（HRPO），它將策略優化分解為串流推理和深度推理階段，提供更細粒度的優勢分配，而不是將單一序列級別的優勢均勻分佈到所有詞元上。HRPO 整合了格式、準確性和自適應思考獎勵，以強制執行有效的推理協議、保持最終任務性能，並鼓勵延遲感知的計算分配。實驗表明，與監督微調基線相比，AdaSR 在推理準確性、計算效率和串流延遲之間實現了更好的平衡。我們在 https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR 發布程式碼。

擠壓-釋放：採用精確結構最小化的迭代剪枝
Squeeze-Release: Iterative Pruning with Exact Structural Minimization

Jun 12

ByRoman Denkin, Ida Akerholm, Prashant Singh, Ida-Maria Sintorn

非结构化剪枝虽能产生稀疏的权重张量，但标准实现保持张量形状不变，使得部署后的模型大小与剪枝前无异。我们提出一种精确的结构化重写方法（称为最小化），能将掩码网络转化为更小的密集网络，且前向函数在浮点舍入误差范围内保持不变。压缩-释放周期迭代执行剪枝与最小化，并在中间引入释放步骤，将压缩张量内的精确零位置重新激活为经过校准的微小噪声，从而将原本被浪费的容量转化为可训练参数。后续周期利用这一容量发现单次剪枝无法触及的结构冗余。此外，我们提出补偿层归一化（CompensatedLayerNorm），这是一种保持函数功能的层归一化替代方案，可将最小化方法扩展到配备层归一化的残差流中的通道缩减任务。在准确率相当的前提下，压缩-释放周期能将全连接模型网络的可部署模型压缩至未剪枝模型的39倍，现代卷积神经网络（ConvNeXt-Tiny）则可压缩至14.8倍。此外，我们证明该重写方法可推广至Transformer架构。

WaveDiT：分布感知的小波流匹配用於高效3D腦部MRI合成
WaveDiT: Distribution-Aware Wavelet Flow Matching for Efficient 3D Brain MRI Synthesis

Jun 7

ByDanilo Danese, Angela Lombardi, Giuseppe Fasano, Matteo Attimonelli, Tommaso Di Noia

大型且人口統計學上均衡的數據集對於可靠的神經影像生物標記至關重要。全解析度3D腦部MRI合成可在這一背景下支援資料擴增，但現有方法在體積尺度上要么面臨高昂的計算成本，要么依賴可能損害解剖細節的有損潛在壓縮。因此，實用的3D生成式擴增通常需要專門的計算基礎設施。我們提出WaveDiT，這是一個在3D哈爾離散小波變換係數空間中運作的條件流匹配框架。該模型將分解式空間-深度注意力機制與源自高階小波特性的頻帶異方差不確定性建模相結合。預測的對數變異數直接整合到流目標與條件路徑中，從而實現與解剖細節的重尾及輸入依賴變異數結構一致的自適應精度。此公式支援在單一現代GPU上，於實際記憶體與時間限制下進行全解析度3D合成。在多站點隊列上的評估顯示，與擴散、潛在及小波基準方法相比，生成與真實MRI分佈之間的對齊性有所改善，同時下游腦齡預測表現與區域層級解剖一致性亦獲得增強。程式碼可於 https://github.com/sisinflab/WaveDiT 取得。

透過預測驅動推斷進行統計上可靠的基於LLM之排序評估
Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

Jun 3

ByAbhishek Divekar

採用PRECISE方法，我們擴展了預測驅動推論（Prediction-Powered Inference），透過結合少量人工標註數據與大量大型語言模型（LLM）評判結果，生成排序評估指標的無偏修正估計。PPI方法具有可證明的無偏性，無論LLM評判的誤差分佈為何。針對Precision@K這類分層指標（標註以單篇文檔為單位，但指標以單一查詢為單位），我們將輸出空間的計算複雜度從O(2^|C|)降至O(2^K)。在ESCI基準測試中，將30個人工標註與Claude 3 Sonnet的評判結果結合後，Precision@4估計值的標準誤差從4.45降至3.50（相對降低21%）。在生產系統中，我們的框架僅憑100個人工標籤與2小時的領域專家標註時間，即可正確識別三個系統變體中的最佳方案；A/B測試驗證了此排序結果，對應的日銷售額提升達407個基點。