HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

49 papers found

DVAO：多獎勵強化學習的動態方差自適應優勢優化
DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

May 25

ByGuochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang

116

强化学习已成为将大型语言模型与人类意图及任务需求对齐的标准范式。尽管组相对策略优化为近端策略优化提供了一种高效、无需价值模型的替代方案，但将其适配到现实世界中多奖励场景下仍面临挑战。传统的标量化方法，如奖励组合和优势组合，存在显著缺陷：奖励组合频繁产生平方幅度过大的优势，导致训练不稳定；而优势组合则依赖静态超参数，并忽略跨目标的相关性。为解决这些局限性，我们提出动态方差自适应优势优化（DVAO），该方法根据每个目标在 rollout 组内的经验奖励方差动态调整组合权重，有效提升具有更强学习信号的目标权重，同时抑制噪声目标。我们从数学上证明，DVAO 能保持有界的优势幅度以实现稳定训练，并引入一种自适应的跨目标正则化机制。在 Qwen3 和 Qwen2.5 模型上进行的数学推理与工具使用基准的广泛实验表明，DVAO 显著优于基线方法，实现了更优的多目标帕累托前沿及稳健的训练稳定性。

WBench：一個用於評估互動式視頻世界模型的全面多輪基準
WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

May 25

ByKaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen, Ziwen Wang, Xuezhi Cao, Xunliang Cai, Henghui Ding

互動世界模型正快速進步，然而現有基準僅涵蓋部分必要能力，缺乏系統性評估的統一標準。為填補此缺口，我們提出 WBench——一套全面的多輪次互動世界模型評估基準，針對影片品質、設定遵循度、互動遵循度、一致性及物理合規性五大維度進行評測。WBench 包含 289 個測試案例與 1,058 次互動輪次，每個案例指定一個世界設定與多輪互動序列，涵蓋多樣場景、風格、主體，以及第一人稱與第三人稱視角，並包含導航、主體動作、事件編輯與視角切換四種互動類型。在導航方面，WBench 統合文字、六自由度姿態與離散動作控制，使具備不同原生輸入介面的模型皆可受評。評估使用 22 項自動化子指標，結合專業視覺模型與大型多模态模型，所有指標均經人類判斷驗證。在 20 個最新模型中，我們發現沒有任何單一模型在所有維度上表現皆佳。我們提供詳細診斷見解，闡明各模型的特性優勢、弱點及尚待解決的挑戰。程式碼與資料可於 https://github.com/meituan-longcat/WBench 取得。

Macaron-A2UI：個人代理中生成式使用者介面的模型
Macaron-A2UI: A Model for Generative UI in Personal Agents

May 24

ByFancy Kong, Congjie Zheng, Murphy Zhuang, Rio Yang, Sueky Zhang, Hao Fu, Gene Jin, Song Cao, Kaijie Chen, Andrew Chen, Pony Ma

隨著個人代理發展到能夠處理複雜、以使用者為中心的任務，靜態純文字對話迅速成為瓶頸。生成式UI應運而生，成為必要的新介面層，能即時從互動情境中動態合成正確的控制項、選項與狀態。我們提出Macaron-A2UI，這是一個專為個人代理設計的生成式UI模型。目標是超越純文字互動，使代理能同時生成自然語言，以及輕量級、可執行的UI動作，用於資訊收集、偏好精煉、確認與多重目標組織。我們從異質對話來源建構大規模生成式UI語料庫，引入A2UI-Bench進行控制式評估，並透過參數高效的LoRA基礎監督式微調，搭配獎勵驅動的強化學習，訓練出30B、235B與754B模型。最佳Macaron-A2UI模型在A2UI-Bench上，無須明確綱要提示即達到75.6總分，超越最強的完整綱要先進基準。我們釋出模型、基準與評估協議，以支援未來個人代理生成式UI的研究工作。

基礎協議：智能體社會的協調層
Foundation Protocol: A Coordination Layer for Agentic Society

May 22

ByBang Liu, Yongfeng Gu, Jiayi Zhang, Zhaoyang Yu, Sirui Hong, Maojia Song, Xiaoqiang Wang, Mingyi Deng, Zijie Zhuang, Ronghao Wang, Mingzhe Cao, Yutong Zhu, Xingjian Li, Yifan Wu, Jianhao Ruan, Yiran Peng, Shuangrui Chen, Jinlin Wang, Yizhang Lin, Dongjie Zhang, Dekun Wu, Chen Ma, Lizi Liao, Han Yu, Jian Pei, Heng Ji, Qiang Yang, Yuyu Luo, Chenglin Wu

自主代理正從工具轉變為社會基礎設施的一層：它們瀏覽、購買、部署軟體、管理系統，並日益彼此互動。隨著這些系統規模的擴大，瓶頸從原始模型能力轉向協調問題。代理需要建立可靠的關係、組織多代理工作、交換價值、支持AI經濟，並在真實世界的監督下保持安全與可問責。本文介紹基礎協議（Foundation Protocol, FP），這是一個為新興人機社會設計的、以圖為優先的協調層。FP統一了異質實體，包括代理、工具、資源、人類、機構與組織，並支援原生多組織協作以及基於事件的合作。此外，FP提供了用於計量、收據與結算的經濟原語，並將政策、溯源與審計視為第一級關注事項。FP的設計旨在包裹與橋接現有協議而非取代之，從而在降低整合與治理成本的同時實現逐步採用。其目標是讓自主代理保持可組合性，同時確保問責制不可妥協，從而使協調本身能成為一個開放、多元且可治理的人機社會的共享基礎設施。

TriSplat：可即用於模擬的前饋式三維場景重建
TriSplat: Simulation-Ready Feed-Forward 3D Scene Reconstruction

May 25

ByWeijie Wang, Zimu Li, Jinchuan Shi, Zeyu Zhang, Botao Ye, Marc Pollefeys, Donny Y. Chen, Bohan Zhuang

稀疏視角三維重建正日益透過前饋噴濺網絡來解決，此類網絡可直接從影像預測顯式基元。然而，現有方法大多仍以高斯基元為核心，且僅間接暴露表面：要提取可供下游模擬、物理推理或具身交互使用的可用網格，仍需昂貴的後處理步驟，這違背了前饋機制的承諾。在無位姿設定中，此限制尤為突出——場景結構與相機參數必須從稀疏觀測中聯合估計。我們提出TriSplat，這是一個前饋重建網絡，以有向三角形基元表示場景，並透過單次前向傳播直接輸出模擬就緒的網格場景。給定輸入影像，該網絡預測局部三維點圖、三角形屬性、相機位姿及可選內參。不同於將三角形方向回歸為無約束潛變量，我們的方法從預測的點圖構建幾何法線，經由影像條件法線頭進行細化，並將其轉換為穩定的局部幀以用於三角形參數化。單法線自舉調度進一步穩定早期訓練，而不透明度與模糊調度則逐步銳化所學的表面表徵，以實現直接網格提取。在RealEstate10K與DL3DV上的實驗表明，相較於高斯前饋基線，此表徵能產出更忠於幾何的重建，同時維持具有競爭力的新視角渲染品質。由於渲染基元本身就是表面三角形，輸出可直接被物理引擎、碰撞檢測器及標準渲染管線使用，無需任何轉換，使其成為前饋三維場景重建的實用模擬就緒解決方案。

邁向原生多模態建模：路線圖
Toward Native Multimodal Modeling: A Roadmap

May 25

BySiyu An, Junru Lu, Junnan Dong, Qiufeng Wang, Yinghui Li, Weizhi Fei, Zichao Yu, Zheng Yuan, Biao Liu, Haopeng Wang, Renzhao Liang, Yixuan Yang, Yunhang Shen, Bo Ke, Keyu Chen, Linhao Luo, Difan Zou, Xiao Huang, Di Yin, Ruizhi Qiao, Xing Sun

多模態建模是從模態無關推理邁向世界模型建構的關鍵一步。早期方法主要依賴後期融合，將編碼器與凍結的語言骨幹結合輸出頭進行組合；而近期研究已將典範轉移至原生多模態建模，透過本質性地整合各模態以實現更優異的多模態表現。儘管潛力巨大，原生架構的設計空間仍缺乏明確定義。本文為學界提供一條形式化的轉型路線圖。具體而言，我們正式定義架構原生性，區分中期融合與早期融合不同於非原生典範。我們進一步從輸入-輸出二元性的視角，將現有原生模型歸納為三類：(i) 多模態到文本，專注於跨模態理解並僅輸出文本；(ii) 多模態到目標，針對場景導向生成（如影像、音訊與影片生成）；(iii) 多模態到多模態，實現對稱輸入輸出的統一建模。我們針對邁向終極原生多模態建模框架的轉型過程，進行了全面且產業級的調查。在此框架中，理解與生成能在統一的Transformer典範下無縫共存。我們從產業視角系統性地拆解端到端管線，涵蓋架構協調、大規模資料治理、全端訓練配方、推理與部署，以及真正原生建模的全面評測。

ParaVT：馴服工具先驗悖論以實現基於智能體的影片強化學習中的平行工具使用
ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

May 19

ByZuhao Yang, Kaichen Zhang, Sudong Wang, Keming Wu, Zhongyu Yang, Bo Li, Xiaojuan Qi, Shijian Lu, Xingxuan Li, Lidong Bing

通過強化學習（RL）訓練大型多模態模型（LMMs）以原生調用視頻處理工具（如裁剪）已成為實現長視頻理解的一條有前景途徑。然而，現有的原生RL方法按順序分發工具調用（即每輪一次）：一次錯誤裁剪會導致錯誤傳播而無同伴糾正，多輪工具調用污染上下文，且推理成本隨輪數線性增長。我們提出ParaVT，首個基於多智能體端到端RL訓練的平行視頻工具調用框架，在單輪中分發多個時間窗口裁剪，以實現更乾淨的上下文與更佳的容錯性。然而，將標準RL應用於ParaVT揭示了一個我們稱之為「工具先驗悖論」的障礙：使工具探索得以進行的預訓練工具先驗，同時也破壞了冷啟動的結構化格式，並在溫度取樣下暴露了跳過工具的獎勵捷徑。對一個先驗較弱的LMM進行跨模型對比支持了這一論點：格式保持穩定，但RL引發零次工具調用，表明先驗強度是格式崩潰與工具探索的共同驅動因素。我們提出PARA-GRPO（可解析性錨定與比率門控GRPO），通過兩種互補機制增強標準RL：(i) 僅作用於最易崩潰的結構標記位置的有針對性格式獎勵，以及(ii) 每個提示的幀預算隨機化，創建使調用工具相比跳過工具能產生可測量獎勵信號的訓練提示。在六個長視頻理解基準測試中，ParaVT相較於Qwen3-VL基線平均提升+7.9%，而PARA-GRPO將訓練期間的格式合規性從0.13提升至0.64。隨著工具能力逐漸內化於現代LMM中，RL必須與由此產生的先驗協作，而ParaVT為智能體RL提供了一個通用方案。代碼、數據和模型權重均已公開。

QUEST：以全合成任務訓練前沿深度研究智能體
QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

May 22

ByJian Xie, Tianhe Lin, Zilu Wang, Yuting Ning, Yuekun Yao, Tianci Xue, Zhehao Zhang, Zhongyang Li, Kai Zhang, Yufan Wu, Shijie Chen, Boyu Gou, Mingzhe Han, Yifei Wang, Vint Lee, Xinpeng Wei, Xiangjun Wang, Yu Su, Huan Sun

深度研究代理將搜尋引擎的角色從檢索關鍵詞匹配頁面擴展為知識綜合，從根本上改變了人類與資訊互動的方式。然而，前沿系統仍屬於專有領域，而現有的開放代理在不同任務類型間常難以有效泛化，使得如何訓練一個具備廣泛能力的深度研究代理仍不明朗。我們釋出QUEST，一系列開放模型家族（參數量從20億到350億），專為通用型深度研究代理設計，能處理多樣化的長程搜尋任務，並在事實查找、引文錨定及報告綜合方面具備強大能力。為建構QUEST，我們提出一套有效的訓練方案，結合中期訓練、監督微調與強化學習。此方案的核心是一個基於統一評分樹的策劃數據合成流程，該流程適用於不同任務類型，無需人工標註即可合成具備可驗證獎勵的訓練數據。此外，QUEST內建情境管理機制，能實現有效的長程推理與知識綜合。僅使用8000個合成任務，QUEST便在涵蓋多種任務類型的八項深度研究基準測試中，接近甚至超越前沿封閉源代理，並在近期開放權重代理中取得最佳整體表現。我們已釋出所有內容：模型、數據及訓練腳本。

ThriftAttention：面向長上下文FP4注意力之選擇性混合精度
ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

May 21

ByJoe Sharratt

高效注意力演算法對於減輕長上下文任務中注意力機制的二次方計算成本至關重要。先前的研究在Blackwell GPU上採用區塊縮放量化技術，將注意力計算降至4位元精度以加速推論。然而，在長上下文環境中，這些技術會導致顯著的品質下降。我們證明了量化誤差的輸出影響具有高度不均勻性，且隨著每個查詢-鍵交互的重要性增加而加劇，使得功能相關的誤差集中在包含最重要token的少數注意力區塊中。為此，我們提出ThriftAttention，一種低位元注意力變體，能在FP4推論效率下提供接近FP16的長上下文品質。此方法分兩階段進行：首先，啟發式方法快速選出少數重要的查詢-鍵區塊對，以FP16精度處理；其次，選定區塊以FP16計算，其餘區塊以FP4計算，兩者透過在線Softmax合併為單一輸出。我們在長上下文基準測試與多種模型系列中證明，僅需以FP16計算5%的查詢-鍵區塊，ThriftAttention平均能恢復89.1%的FP4至FP16效能差距。我們也顯示ThriftAttention的優勢隨序列長度增加而擴大，可緩解長上下文下FP4的系統性品質衰退。程式碼開源於 https://github.com/joesharratt1229/ThriftAttention。

AutoResearch AI：邁向以人工智慧驅動的研究自動化，以推動科學發現
AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery

May 22

ByGuiyao Tie, Jiawen Shi, Dingjie Song, Yixiao Huang, Ziji Sheng, Xueyang Zhou, Daizong Liu, Pan Zhou, Yongchao Chen, Ran Xu, Lifang He, Qingsong Wen, Manling Li, Cong Lu, Shuai Li, Pengtao Xie, Yixuan Yuan, Rui Meng, Lei Xing, Lichao Sun, Caiming Xiong, Philip S. Yu, Jianfeng Gao

科學研究正被AI系統重塑，這些系統已超越孤立的輔助功能，轉向涵蓋文獻基礎、假設生成、實驗、驗證、報告與修訂等長期工作流程。此轉變標誌著從「科學的任務層級AI」邁向「工作流程層級的研究自動化」。然而，現有系統仍然零散，在自主性、領域範圍、執行環境、驗證機制及人類監督等方面各有差異，且在證據保存、可重複性、弱方向拒絕、溯源追蹤、跨領域穩健性與可問責的科學閉環上仍面臨挑戰。本綜述透過「AutoResearch」此一概念來檢視這些發展——即AI驅動的科學工作流程自動化的發展光譜。其中，「Vibe Research」指涉以提示為基礎的輔助與人類驗證執行的人類引導區域，而新興的AI主導系統則協調發現循環中更大環節，但尚未達到穩健的自主性。我們分析研究系統如何在流程中重新分配控制、證據、執行、驗證與問責，並圍繞五項工作流程條件組織本領域：文獻與研究基礎；假設形成與規劃；實驗與工具使用；反饋、驗證與審查；以及報告與知識傳播。此外，我們進一步綜整AI科學家系統、混合主動協作研究框架、基準測試、領域部署及開源基礎設施。最後，我們提出五個評估維度——新穎性、有效性、影響力、可靠性與溯源——並指出AutoResearch的自主性受領域條件限制，在結構化、可執行且可快速驗證的環境中較為可信，但在具身、延遲、異質、倫理或機構問責的情境中則有所局限。

你的嵌入模型比你想象的更聰明
Your Embedding Model is SMARTer Than You Think

May 24

ByJianrui Zhang, Hyun Jung Lee, Sukanta Ganguly, Tae-Eui Kam, Donghyun Kim, Yong Jae Lee

多模態檢索高度依賴於單向量檢索器，這些檢索器將豐富的序列化令牌序列壓縮為單一的全局表徵。儘管此方法效率較高，但它會丟失對密集檢索任務至關重要的細粒度局部證據。多向量方法作為解決方案被引入，但這類方法嚴格需要訓練，且許多忽略了全局歸納表徵的必要性。為了解決這一問題，我們提出了SMART框架，該框架能解鎖標準單向量模型中潛在的多向量能力。我們首先證明，基於池化表徵的標準對比訓練，通過梯度流隱式塑造了前置隱藏狀態的檢索幾何結構。在推論階段對這些凍結的隱藏狀態直接應用晚期交互，SMART作為即插即用的升級方案，能在不同模態中持續提升性能，甚至在MMEB-V2基準上進一步改進現有最先進模型。我們還揭示了SMART的卓越性能：只需輕量級的後訓練，不僅節省時間與計算資源，還能進一步提升視覺文件檢索的效果，使單向量模型超越多向量最先進方法。最終，SMART為多模態檢索同時提供了高效的推論增強技術與強大的微調技術。我們已將程式碼與權重開源於 https://github.com/HanSolo9682/SMART。

Pantheon360：經由3D感知360度影片擴散馴服數位孿生生成
Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

May 25

ByTing-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren

從影片生成完整的數位孿生需要精確的攝影機控制、全面的場景覆蓋以及嚴格的時空一致性約束，但由於透視影片生成器的視野有限，這些要求仍具挑戰性。狹窄的視野迫使採用長軌跡或多視角軌跡，從而加劇了跨視角不一致性與時間漂移。我們認為，360° 影片生成提供了一個自然的解決方案：全景覆蓋簡化了軌跡設計，並提供強大的全局背景以維持一致性。我們提出 Pantheon360：透過具 3D 感知的 360° 影片擴散模型馴服數位孿生生成，這是一個可控的 360° 影片生成框架，能從稀疏的 360° 輸入合成高保真影片。其核心思想是從輸入重建的顯式 3D 快取，作為任何使用者定義攝影機路徑的幾何骨架。這使得擴散模型能夠專注於寫實紋理細化，同時 3D 快取確保了全局幾何一致性。實驗顯示，Pantheon360 實現了卓越的視覺品質與無與倫比的幾何一致性，為後續模擬與數位孿生應用提供了可靠且靈活的 360° 場景生成能力。

CUA-Gym：為電腦使用代理擴展可驗證的訓練環境與任務
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

May 25

ByBowen Wang, Dunjie Lu, Junli Wang, Tianyi Bai, Shixuan Liu, Zhipeng Zhang, Haiquan Wang, Hao Hu, Tianbao Xie, Shuai Bai, Dayiheng Liu, Que Shen, Junyang Lin, Tao Yu

具可驗證獎勵的強化學習（RLVR）已在數學、工具使用及軟體工程等領域帶來突破，但其在電腦使用代理（CUA）上的應用卻因缺乏具確定性獎勵且可擴展的訓練資料而遭遇瓶頸。建構這類 CUA 資料需要一致的任務指令、可執行的環境及可驗證的獎勵。然而，人工篩選的基準資料集雖能達到高獎勵忠實度，但涵蓋的應用範圍有限；而以 LLM 作為評判的資料集雖能大規模拓展，卻缺乏可靠驗證。我們提出 CUA-Gym，這是一套可擴展的管線，能協同生成任務指令、環境狀態及獎勵函數。具體而言，由生成器代理建構初始與最終的黃金環境狀態，再另由判別器代理根據任務規格撰寫獎勵函數，並由編排器代理驅動兩者在執行過程中反覆迭代。生成的資料組最終通過一道篩選關卡，結合 LLM 多數決投票與代理執行軌跡，確保品質超越單任務對抗式循環。為因應訓練環境稀缺的問題，我們進一步合成 CUA-Gym-Hub，這是一套以大規模真實軟體使用分布為基底、具高忠實度的模擬網頁應用套件，將 CUA 的 RLVR 資料規模擴大了數個量級。利用此管線，我們建構了 CUA-Gym 資料集，包含 32,112 組經過驗證的 RLVR 訓練資料組，對應 110 個環境。使用 GSPO 在 CUA-Gym 上訓練後，我們的 CUA-Gym-A3B 與 CUA-Gym-A17B 分別在 OSWorld-Verified 基準上達到 62.1% 與 72.6% 的表現，優於同等規模的先進開源 CUA，且效能隨資料量與環境多樣性平滑提升。同一檢查點亦在保留的 WebArena 基準上表現提升，顯示訓練成果可遷移至訓練環境之外。我們將開源完整的合成管線、資料集、CUA-Gym-Hub 環境及模型。

ControlLight: 邁向可控、一致且可泛化的低光增強
ControlLight: Towards Controllable, Consistent, and Generalizable Low-Light Enhancement

May 25

ByYufeng Yang, Jianzhuang Liu, Jisheng Chu, Yuqi Peng, Xianfang Zeng, Jiancheng Huang, Shifeng Chen

現有的深度學習低光照增強方法通常僅在有限的數據集上訓練，且針對單一增強目標，這限制了其在真實場景中的泛化能力與可控性。為克服這些限制，我們提出ControlLight——一個可控、一致且具備泛化能力的低光照增強框架。首先，我們構建了一個大規模的真實退化影像數據集，並提供連續光照強度的監控資訊。為確保在不同控制強度下輸出的表現一致性，我們引入一種對齊感知加權流匹配損失，能在連續增強強度下保留影像結構。ControlLight允許使用者透過靈活控制強度來編輯真實場景中的退化低光照影像，以達到滿意的增強結果，同時保持視覺一致性和真實感。大量實驗顯示，與現有低光照增強方法相比，ControlLight達到了最先進的效能，同時展現出強大的連續可控性以及對真實場景的泛化能力。

Claw-Anything：對具備更廣泛用戶數位世界存取權限的始終在線個人助理進行基準測試
Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

May 25

ByYusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu

大型語言模型代理越來越被設想為永遠在線的個人助手，能夠存取用戶數位世界中任何相關的內容。然而，目前的系統僅能運作於該世界的狹窄片段，限制了對上下文敏感的推理與有效的協助。現有的基準測試同樣僅提供部分的用戶狀態，因此無法在如此廣泛且永遠在線的設定中捕捉效能表現。為了解決這一差距，我們提出了 Claw-Anything，這是一個沿三個維度擴展代理上下文的基準測試：長時程活動歷史、相互依賴的後端服務，以及跨多個裝置的整合圖形使用者介面（GUI）與命令列介面（CLI）互動。為了具體實現此設定，我們透過多輪事件注入模擬了長達數月的用戶活動，產生複雜的世界狀態與真實的雜訊，包括無關事件與衝突訊號。代理必須在豐富的上下文環境中進行推理，同時對這類雜訊保持穩健。這種擴展的範疇也使得對主動協助的評估成為可能，要求代理能夠預測用戶需求並提供及時的建議。實驗顯示，GPT-5.5 僅達到 34.5% 的 pass@1，遠低於先前的基準測試，凸顯了當前代理能力與永遠在線個人協助需求之間的差距。除了基準測試外，我們還釋出了一個自動化資料生成管線，該管線產生了 2,000 個訓練環境，並將基礎模型提升了 23.7%，展示了其可擴展資料基礎設施的實用性。

預測與學習：於主動式代理中釋放閒置時段的算力
Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents

May 25

ByHaoyi Hu, Qirong Lyu, Xianghan Kong, Weiwen Liu, Jianghao Lin, Zixuan Guo, Yan Xu, Yasheng Wang, Weinan Zhang, Yong Yu

儘管AI代理在推理與工具使用方面展現出卓越能力，其本質上仍屬被動反應型：僅在收到明確的使用者提示後才計算回應。這種運作模式忽略了一個關鍵契機：互動間的空閒時間大多被浪費，使代理無法為未來的使用者需求預作準備。為填補此缺口，我們提出ProAct，一種主動式代理架構，藉由運用空閒時間的計算能力來預測並滿足使用者即將產生的需求。透過分析持續演進的對話歷史及持久記憶，ProAct能預測即將到來的需求，並以疊代方式獲取資訊，使代理能在使用者發起查詢前填補知識缺口與準備佐證。為嚴謹評估主動能力，我們亦引入ProActEval，這是一個涵蓋40個領域、共200個場景的全面基準測試，其中包含可預測的需求鏈與多樣化的使用者認知特徵。實驗結果顯示，相較於被動反應型基準方法，ProAct展現顯著優勢。在ProActEval上，ProAct將任務完成所需回合數減少14.8%，降低使用者努力11.7%，並將幻覺率降低28.1%。此外，MemBench評估證實ProAct在反思準確度上達到當前最佳水準，突顯其持續穩健的表現。

用於自回歸影片生成的在策略對抗流蒸餾
On-Policy Adversarial Flow Distillation for Autoregressive Video Generation

May 25

ByYang Luo, Shengju Qian, Xiaohang Tang, Zirui Zhu, Yong Liu, Xin Wang, Yang You

自回歸視頻生成器在串流、長時域及互動應用中具有吸引力，但將強大的黑箱教師模型蒸餾至因果學生模型仍具挑戰。學生模型需在其自身滾動分佈下學習，而實務上的教師模型僅能提供提示條件下的完整視頻，且在架構、容量、時域設計與取樣排程上可能有所不同。此介面使得監督式微調偏離策略、基於分數的蒸餾無法適用，而直接對抗模仿在去噪時間信用分配上資訊過於稀疏。我們提出對抗性流動蒸餾（AFD），一個針對異質黑箱視頻蒸餾的基於策略框架。AFD查詢教師模型並在同一提示下執行當前學生模型的滾動，訓練一個提示配對的Bradley-Terry判別器以估計乾淨樣本層級的師生差距，並將所得基於策略優勢轉化為學生模型自身噪聲狀態上的前向過程流匹配更新。因此，AFD提供密集的速度場監督，而無需教師分數、潛變量、去噪軌跡、步驟對齊或反向鏈強化學習。在兩個因果自回歸學生模型家族上的實驗顯示，AFD在保持整體視頻品質的同時，持續改善運動與物理敏感的生成效果，消融實驗驗證了自適應基於策略回饋與前向過程信用分配的重要性。該方法僅需乾淨的教師視頻與學生滾動，為將專有或異質視頻生成器蒸餾至高效自回歸學生模型提供了實用途徑。

SkillEvolBench：評測從情節經驗到程序性技能的演進
SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

May 22

ByYingtie Lei, Zhongwei Wan, Jiankun Zhang, Samiul Alam, Zixuan Zhong, Peizhou Huang, Xin Wang, Jingxuan Zhang, Donghao Zhou, Yunta Hsieh, Zhihao Dou, Hui Shen, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang

大型語言模型（LLM）智能體在解決真實世界任務時會累積豐富的情節軌跡，但這些經驗能否被提煉為可重複使用的程序性技能，目前仍不清楚。我們提出 SkillEvolBench，這是一個診斷性基準，用於評估從經驗重複使用到技能形成的這個步驟。該基準包含跨越六個真實世界智能體環境的 180 項任務，這些任務被組織成具有共享潛在程序的角色條件任務族。智能體從獲取任務中學習，利用壓縮軌跡和驗證器反饋更新外部技能庫，然後面對凍結部署任務，測試情境轉移、對抗性捷徑與組合能力。透過比較自生成技能與策劃初始技能的演化，並以無技能和原始軌跡作為對照組，SkillEvolBench 將程序抽象化能力與基礎能力、策劃先驗知識以及情節軌跡的直接重複使用區分開來。在十種模型配置與三種智能體框架的實驗中，我們發現當前智能體往往能進行局部適應，但很少能形成穩健的可重複使用技能。基於技能的條件可以改善獲取或回放表現，個別模型有時能在特定部署維度上取得進展，但在凍結部署條件下這些增益並不穩定。原始軌跡的重複使用經常優於提煉後的技能，這表明當前的抽象化程序丟棄了對未來任務仍有用的情境線索與程序性線索。容量與成本分析進一步表明，撰寫更多技能或更大的 Tier-3 資源庫並不足夠：額外的更新可以改善覆蓋範圍，但同時會引入特定於情節的偏移與程序性雜訊。這些發現將 SkillEvolBench 定位為一個實驗平台，用於衡量一次性的經驗何時會轉化為持久的程序性知識，而非僅限於任務局部的記憶。

逐通道向量量化
Channel-wise Vector Quantization

May 25

ByWei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu

我們提出通道式向量量化（Channel-wise Vector Quantization, CVQ），這是一種新穎的圖像分詞範式，以通道式分詞取代傳統的區塊式分詞。與常規向量量化將每個區塊特徵向量分配一個離散標記不同，CVQ對特徵圖的每個通道進行量化。此表述方式將圖像表示為視覺細節的離散層級，而非空間區塊的網格。基於CVQ，我們引入了一種全新的視覺自回歸框架，採用「下一個通道預測」策略。我們的通道式自回歸（Channel-wise Autoregressive, CAR）模型並非按光柵順序逐塊渲染圖像，而是按順序預測圖像通道，逐步生成更豐富的視覺細節。具體而言，它首先勾勒全局結構，然後細化精細屬性，類似於人類藝術家的創作流程。實驗結果顯示：（1）CVQ在無需任何附加技巧的情況下，實現了16K以上碼本大小的100%碼本利用率，並顯著提升了重建品質；（2）CAR在DPG得分達到86.7、GenEval得分為0.79，展現出在文字到圖像生成任務中的強大有效性。

MemForest：一種採用分層時間索引的高效智能體記憶系統
MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing

May 16

ByHan Chen, Zining Zhang, Wenqi Pei, Bingsheng He, Ming Wu, Jason Zeng, Michael Heinrich, Wei Wu, Hongbao Zhang

記憶是實現長上下文大語言模型代理的基礎元件，透過持續的服務與更新生命週期，在跨互動過程中維持持久狀態。儘管已有大量前期研究，現有系統因兩項主要限制而面臨顯著的維護負擔：粗粒度的狀態管理與天生順序化的更新流程。具體而言，更新經常與大語言模型推理緊密耦合，且需要進行全狀態重寫，導致隨著記憶累積而產生較差的可擴展性與日益增加的延遲。為應對這些挑戰，我們提出 MemForest，一個將代理記憶重新構築為寫入高效的時序資料管理問題的記憶框架。MemForest 透過並行區塊提取打破順序瓶頸，將記憶建構解耦為可並行運行的獨立操作。為進一步消除粗粒度維護，我們引入 MemTree，一種層級時間索引，將記憶組織為按時間排序的樹狀結構，而非平坦的全局摘要。此設計以局部化的逐節點更新取代全狀態重寫，將維護成本降低至受影響的樹路徑，同時自然保留隨時間演變的狀態。我們在兩個長上下文記憶基準 LongMemEval-S 與 LoCoMo 上評估 MemForest。在 LongMemEval-S 中，MemForest 在有狀態基線中達到最佳整體表現，實現 79.8% 的 pass@1 準確率，同時記憶建構吞吐量比包括 EverMemOS 在內的最新方法高出約 6 倍。

幾何感知影像流匹配
Geometry-Aware Image Flow Matching

May 24

ByJunho Lee, Kwanseok Kim, Joonseok Lee

近期生成模型的進展凸顯了在流形約束環境中進行幾何感知建模的潛力。然而，對於自然影像而言，該領域仍侷限於歐幾里得假設，未能善用資料內在幾何結構的優勢。本研究探討自然影像的幾何特性，觀察到語義資訊主要編碼於方向分量中，而範數分量則可透過全域平均近似。此特性在RGB空間與潛在空間中均成立，暗示自然影像可有效建模於超球面上。基於此發現，我們引入球形最優傳輸流匹配（SOT-CFM），其利用角距離進行運算，以及球形流匹配（SFM），將動態過程直接約束於流形上。實驗結果顯示，這些幾何感知方法相較於歐幾里得基準模型達到更優異的效能。最終，本研究提供了一個全新視角，橋接了黎曼流形建模與自然影像生成之間的鴻溝。

InstructSAM: 任意指令下的任意實例分割
InstructSAM: Segment Any Instance with Any Instructions

May 25

ByYuqian Yuan, Wentong Li, Zhaocheng Li, Yutong Lin, Juncheng Li, Siliang Tang, Jun Xiao, Yueting Zhuang, Wenqiao Zhang

本文介紹了InstructSAM，一個統一且精簡的框架，專為在任意指令下進行多實例分割而設計。我們將指令驅動的實例分割表述為一個集合結構的查詢預測問題，並提出一個明確的推理到實例查詢介面，優雅地橋接了視覺語言模型（VLM）與SAM3。具體而言，我們將一組可學習的實例查詢注入VLM中，並將其與指令及視覺資訊進行上下文整合，使每個查詢能夠作為一個具實例感知的槽位。混合注意力機制進一步促進這些查詢、視覺標記與指令標記之間的交互，從而改善實例列舉並減少重複預測。最終的LLM條件化查詢被投影至SAM3的檢測器查詢空間，在單次前向傳遞中驅動精確的多實例分割。此設計賦予SAM高階指令理解、組合推理及實例層級的集合預測能力，卻無需修改其核心架構。為支援訓練與評估，我們進一步構建了Inst2Seg，一個高品質、大規模的基於指令的實例分割資料集與基準，將自由形式的指令與實例層級遮罩相對應。大量實驗顯示，僅2B規模的InstructSAM在複雜指令驅動與短語層級的參考分割基準上均取得強勁成果，超越先前的端到端方法及SAM3的代理流程，同時實現高效的單次多實例預測。

忠實性指標無法衡量忠實性：一項基於真實基準的後設評估
Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth

May 24

ByYoav Gur-Arieh, Ana Marasović, Mor Geva

思維鏈（CoT）已成為解讀與審查大型語言模型行為的核心工具。然而，越來越多證據顯示，這些軌跡往往未能忠實反映模型預測背後的實際計算過程。雖然已有數個忠實度指標被提出，但它們是否確實衡量了忠實度仍屬未知。回答此問題需要真實標籤，但由於內部計算過程無法直接觀察，這類標籤難以取得。因此，多數提出指標的研究僅報告絕對分數或與既有指標的比較，而少數現有基準則依賴於可解釋性或重要性等代理變數，這些屬性與忠實度正交，可能誤導我們對思維鏈可信度的判斷。我們透過建構一組任務來應對此挑戰，這些任務的輸出能揭示產生它們所必須經歷的中間計算過程，並開發一套自動化標註流程，從而產生步驟層級與思維鏈層級的忠實度真實標籤。基於此方法，我們提出了 BonaFide 基準測試，涵蓋 13 項任務與 10 個模型，共計 3,066 條已標註的思維鏈，並利用它對知名忠實度指標進行首次系統性評測。實驗結果顯示，多數指標表現接近隨機水準，存在強烈的預測偏差，且在較長思維鏈上表現退化。最佳指標在思維鏈層級僅達到 0.70 AUROC，另一指標在步驟層級僅達到 0.59，兩者均無法跨設定遷移，同時伴隨極高的計算成本。我們的結果揭示了當前忠實度評估中的根本性差距，並呼籲發展更可靠且更高效的度量指標。

語言模型需要睡眠
Language Models Need Sleep

May 25

BySangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

基於Transformer的大型語言模型越來越多地用於長期任務，但其注意力機制在上下文長度增加時擴展性不佳。為解決此問題，我們研究了一種類似睡眠的鞏固機制：模型定期將近期上下文轉換為持久的快速權重，然後清除其鍵值緩存。在睡眠階段，模型對累積的上下文執行N次離線遞歸處理，並通過學習得到的局部規則更新其狀態空間模型（SSM）區塊中的快速權重。在推理階段，此機制將額外計算轉移至睡眠期間，同時保持清醒時預測的延遲。我們在受控的合成任務（包括元胞自動機和多跳圖檢索）以及一項實際的數學推理任務上測試了該方法，而這些任務中，常規Transformer及SSM-注意力混合模型均表現不佳。我們進一步證明，增加模型睡眠持續時間N可提升性能，且對需要更深層推理的樣本提升效果最大。

Helix4D：複雜四維網格生成
Helix4D: Complex 4D Mesh Generation

May 25

ByJiraphon Yenphraphai, Jianqi Chen, Jian Wang, Gordon Qian, Sergey Tulyakov, Rameen Abdal, Raymond A. Yeh, Peter Wonka, Chaoyang Wang

當前視頻到4D的方法在處理複雜拓撲變化、透明材料、薄結構及內表面時存在困難。我們提出Helix4D，這是一個動態網格生成框架，通過繼承Trellis2的高表達力表徵，將其從圖像到3D的生成擴展為視頻條件下的4D生成。我們的設計源於兩個關鍵問題：(a) 如何使Trellis2的幀內局部注意力能夠跨幀共享信息，同時保留其在透明物體和內表面等罕見案例上的預訓練品質；(b) 如何在純3D位置編碼中注入時間信息，同時不破壞預訓練能力。針對問題(a)，我們採用滑動窗口跨幀注意力機制，並以第一幀為錨點。第一幀由基礎Trellis2模型生成，並注入我們的模型，使其通過跨幀注意力繼承Trellis2在罕見案例上的品質。針對問題(b)，我們提出一種4D時間編碼方法，將冗餘的低頻空間RoPE頻帶重新用於時間編碼，從而在不增加參數的前提下將編碼從3D擴展至4D。大量實驗證明了Helix4D在ActionBench及我們自訂的複雜動態數據集上生成高品質動態網格的有效性。

CRONOS：基準測試視頻模型中的反事實物理一致性
CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

May 22

ByLeón Begiristain, Olaf Dünkel, Adam Kortylewski

视频预测日益被视为通往可泛化世界模型的途径，然而目前仍不清楚这些系统是真正学习了潜在的因果结构，还是仅仅利用了表面的视觉相关性进行未来预测。我们提出了CRONOS——一个基于干预的基准测试，旨在评估反事实物理一致性：即模型对物理事件的预测能否在视觉输入发生受控变化（如场景上下文、视角、物体外观和物体类别的变化）时做出恰当响应。CRONOS构建于逼真的虚幻引擎环境中，可跨多种场景和动力学过程生成受控的、高保真度的视频。与以往的基准不同，CRONOS系统性地对四个关键因素——视角、场景、物体类别和物体外观——进行干预，同时保持底层物理事件类型（如碰撞、遮挡或掉落）不变。我们对近期开源视频生成器的评估揭示了它们在反事实物理一致性上的重大缺陷：同一物理事件类型的预测质量会受到外观、环境，尤其是视角变化的显著影响。CRONOS提供了一个可控且可重复的测试平台，用于诊断不同干预下生成视频质量如何变化，从而为开发能在多种条件变化下保持一致的模型确立了明确目标。数据集和代码已发布在我们的项目页面上。

MetaphorVU：邁向隱喻視頻理解
MetaphorVU: Towards Metaphorical Video Understanding

May 25

ByZhuoqun Li, Boxi Cao, Guiping Jiang, Fangrui Lv, Ruotong Pan, Jianan Wang, Xiangyu Wu, Hongyu Lin, Yaojie Lu, Yong Du, Ruyin Jia, Liyan, Tingting Gao, Han Li, Xianpei Han, Le Sun

隱喻影片在各種真實場景中廣泛用於傳達複雜概念，理解它們通常需要高階認知能力。目前針對隱喻影片理解的系統性研究不足，不僅限制了多模態大型語言模型（MLLMs）在現實世界中的應用，也阻礙了對其高階認知能力的全面評估。為填補此一缺口，我們提出 MetaphorVU-Bench，首個系統化且全面的隱喻影片理解基準。實驗結果顯示，現有的多模態大型語言模型在準確理解隱喻影片方面表現困難，遠落後於人類水準，主要原因在於跨領域映射的缺陷。受此發現啟發，我們建構了一個隱喻知識圖譜作為映射增強，並提出 MetaphorBoost，一個能在推論時持續提升效能的增強框架。我們的基準、分析與方法為未來推動多模態大型語言模型的研究提供了有用的見解與基礎。

面向定制化多模态角色扮演
Towards Customized Multimodal Role-Play

May 1

ByChao Tang, Jianzong Wu, Qingyu Shi, Ye Tian, Aixi Zhang, Hao Jiang, Jiangning Zhang, Yunhai Tong

統一多模態理解與生成模型能實現更豐富的人機互動。然而，在維持跨模態輸出一致性的同時，共同自訂角色的性格、對話風格與視覺形象，至今仍鮮少被探討。為填補此缺口，我們提出一項新任務——客製化多模態角色扮演（Customized Multimodal Role-Play, CMRP），並建構 RoleScape-20 資料集，包含 20 個角色，涵蓋性格描述、風格描述、視覺/表情提示以及文字-影像互動等訓練與評估資料。基於統一模型，我們設計了 UniCharacter，這是一個兩階段訓練框架，包含統一監督微調（Unified Supervised Finetuning, Unified-SFT）與角色特定群體相對策略優化（Character-specific Group Relative Policy Optimization, Character-GRPO）。僅需 10 張影像及對應的互動範例，模型即可習得目標角色，並在生成的文字與影像中展現一致的性格、風格與視覺形象，此過程約耗時 100 GPU 小時。在 RoleScape-20 資料集上的實驗顯示，所提方法顯著優於既有方法。消融實驗進一步驗證了我們跨模態一致性設計與少樣本客製化策略的有效性。我們認為，CMRP 結合統一建模，為下一世代具角色特色且沉浸式的互動代理提供了基礎。

在推理階段將圖像引導注入文本條件擴散模型
Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference

May 24

ByAgata Żywot, Iason Skylitsis, Thijmen Nijdam, Zoe Tzifa-Kratira, Derck Prinzhorn, Konrad Szewczyk, Aritra Bhowmik

像Stable Diffusion這類文字轉圖像擴散模型能從文字生成高品質圖像，但在推理過程中缺乏無需重新訓練即可注入視覺引導（例如草圖、風格）之方法。現有方法若非需計算成本高昂的微調，便是依賴風格轉換技術，而此類技術可能造成與文字提示之間的語義偏差。我們提出視覺概念融合（Visual Concept Fusion, VCF），這是首個在推理時無需任何特定概念訓練，即能同時對圖像與文字提示進行雙重條件化的方法。VCF透過將CLIP圖像特徵對齊至文字嵌入空間，實現將視覺概念注入Stable Diffusion。VCF包含三個組成部分：(1) 輕量級對齊器，利用InfoNCE與交叉注意力重建損失，將圖像標記映射至文字嵌入流形；(2) 保留文字與視覺語義之融合策略；(3) 可選的提示噪聲優化（Prompt-Noise Optimization, PNO）模組，用於測試時之修正。實驗結果顯示，VCF能成功從參考圖像轉移風格、構圖及色調等視覺屬性，同時維持對提示之遵從性。量化結果顯示文字對齊（CLIP分數）與視覺對應（LPIPS）之間存在權衡關係，而VCF在參考忠實度方面優於各基線方法。

為噪聲著色：基於對抗性索博列夫對齊的忠實影像超解析度
Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution

May 22

ByHongbo Wang, Huaibo Huang, Pin Wang, Jinhua Hao, Chao Zhou, Ran He

生成先驗在圖像超解析度（SR）中常損害忠實還原，我們將此限制歸因於各向同性目標與自然圖像流形之間的根本性光譜失配。儘管直接偏好優化提供了對齊途徑，但其依賴於光譜平坦的高斯雜訊，無法區分真實高頻細節與幻覺。為填補此幾何鴻溝，我們提出ASASR，一個具理論基礎的框架，通過明確對雜訊轉移核進行著色以鏡像自然光譜衰減，從而將生成流重新塑造成Sobolev誘導的黎曼幾何。為驅動此幾何對齊，我們整合了一個基於Riesz表示定理的參數化對抗機制，該機制合成相當於最壞情況Sobolev梯度的目標負樣本，從而沿可行結構失敗的切空間引導優化。廣泛評估顯示，ASASR在保持光譜一致性和結構忠實度上優於領先的生成基線，提供了一個有效減輕偽影的穩健解決方案。

SEAL：智能體與學習環境的協同共進化
SEAL: Synergistic Co-Evolution of Agents and Learning Environments

May 23

ByYihao Hu, Zhihao Wen, Xiujin Liu, Pan Wang, Xin Zhang, Wei Wu

大型語言模型（LLM）代理的表現正透過互動逐步提升，然而現有的自我演化方法多半僅針對策略或學習環境其中一項進行調整。我們將此結構性缺陷定義為「代理-環境錯配」：代理的能力邊界在訓練過程中不斷變化，而提供監督訊號的環境卻維持靜態，或僅與代理所揭露的失敗行為保持鬆散耦合。為此，我們提出SEAL，一個適用於互動式工具使用代理的閉環共同演化框架。SEAL在可執行驗證下收集同策略軌跡，將失敗的軌跡展開診斷為回合層級的失敗標籤，並將這些診斷結果作為共享訊號，同時驅動環境端適應與模型端策略最佳化。環境方面，透過提供更清晰的工具啟示意圖、限制條件資訊及復原導向回饋，演化其訓練階段的學習介面；策略方面，則依據診斷引導的優勢權重重新加權進行更新。涵蓋分佈內與分佈外多輪工具使用評估的大量實驗結果顯示，SEAL能改善低資源代理的學習效能：僅使用400筆訓練樣本，即可在三個骨幹模型上獲得+8.25至+26.25的平均分數提升，並展現正向的分佈外遷移能力。這些成果證明了對於穩健自我強化的LLM代理而言，同步調整學習者及其訓練階段學習基礎設施的價值。

CoSPlay：測試時利用自生成程式碼與單元測試的合作式自我對弈
CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

May 22

ByZhangyi Hu, Chenhui Liu, Tian Huang, Jindong Li, Yang Yang, Jiemin Wu, Zining Zhong, Menglin Yang, Yutao Yue

近期，可验证奖励强化学习（RLVR）与测试时扩展（TTS）已通过可执行验证推动了LLM代码生成技术的进步。然而，真实单元测试（GT UTs）仍构成瓶颈：最先进的RLVR方法需依赖它们进行高成本训练，而现有TTS方法若缺乏GT则会失去竞争力。这催生了无GT的TTS方法——现有方法直接使用自生成的UT来优化并筛选代码候选方案。然而，此类UT常包含噪声或与错误代码产生伪耦合，而UT质量本身也无法在缺乏可靠代码的情况下得到验证。因此，关键挑战在于如何同时提升两者。针对这一问题，我们提出CoSPlay——一种无需GT、无需训练的框架，通过合作式自我对弈同时优化代码与UT。该方法首先探索多样化解题思路，识别其潜在失败模式以生成具有区分性的UT思路；随后利用代码-UT执行矩阵中的双向通过计数信号，迭代性地剪枝或修复薄弱代码，更新或替换不可靠的UT，使两池共同演化。最后，当多个代码在最高通过计数上出现并列时，从输出一致性最大的聚类中选出最终代码——因为正确代码对相同输入达成一致，而错误代码则存在分歧。在四个具有挑战性的基准测试上的实验表明，CoSPlay在Qwen2.5-7B-Instruct上平均BoN从22.1%提升至33.2%，UT准确率从14.6%提升至78.3%，匹配或超越了RLVR模型CURE-7B。应用于CURE-7B时，BoN进一步提升了5.7%。CoSPlay还能在多种骨干模型上泛化，在可比token预算下优于无GT的TTS基线，且随预算扩展持续获得增益。这些结果表明，无需任何GT数据即可实现具有竞争力的代码生成的规模化推理策略。

通過獎勵傾斜分布匹配強化少步生成器
Reinforcing Few-step Generators via Reward-Tilted Distribution Matching

May 25

ByYushi Huang, Xiangxin Zhou, Ruoyu Wang, Chi Zhang, Jun Zhang, Tianyu Pang

近期在少步擴散蒸餾方面的進展已能實現高效圖像生成，但將這些模型與人類偏好對齊仍具挑戰。我們提出獎勵傾斜分佈匹配蒸餾（RTDMD），這是一個兩階段框架，將分佈匹配蒸餾與獎勵引導的強化學習統一應用於少步流生成器。我們證明，最小化與獎勵傾斜教師分佈的KL散度自然分解為分佈匹配項和獎勵最大化項。在第一階段，我們引入環境一致分佈匹配蒸餾（AC-DMD），它執行子區間層面的分佈匹配，並用一致性正則化項增強偽分數目標，幫助偽分數模型在有限更新下追蹤變化的生成器分佈。第二階段，我們聯合優化兩個項：對於獎勵最大化項，我們推導出混合策略梯度，將GRPO風格的估計器用於隨機中間過渡，並通過確定性最終步驟直接反向傳播獎勵，進一步引入步算子集GRPO（SubGRPO）以減少方差。在SD3、SD3.5和FLUX.2上的實驗表明，RTDMD僅需4個推理步驟，就在偏好、美學和組合指標上建立了新的最佳結果，優於先前的少步文本到圖像生成方法。代碼和模型可在 https://github.com/Harahan/RTDMD 獲取。

他們能走多遠？以大型語言模型進行線上影響力的紅隊測試
How Far Will They Go? Red-Teaming Online Influence with Large Language Models

May 20

ByDaniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri

隨著基於大型語言模型（LLM）的智能體日益參與線上論述，對其支援政治影響活動的能力進行紅隊測試，對於資訊完整性至關重要。為達成此目標，我們聚焦於本地部署的開源LLM，而非僅限API的頂尖模型，因為前者更符合注重隱私的惡意行為者在社群媒體環境中運作的限制。我們提出一套實證紅隊測試框架，用以衡量LLM的奧弗頓窗口（OW），即模型在爭議性議題上能夠可靠表達的政治觀點範圍，並量化簡單的自然語言越獄如何擴展該範圍。我們評估了橫跨10個模型家族、來自五個國家的30多個LLM。研究發現政治表達性存在系統性不對稱：開源LLM通常更願意生成左傾的社群媒體內容；奧弗頓窗口往往隨著模型規模增大而縮小；且儘管開源生態系統中的代表性不均，區域差異仍相當顯著。越獄效力在不同模型家族間亦有明顯差異，這促使我們建立一套工作流程，以識別越獄技術的有效組合。綜合來看，我們的研究結果建立了一套實用框架，用於審計開源LLM的政治可操控性，並協助未來研究人員設計更強而有力的對策，以應對由LLM驅動的影響活動。

在語言模型的強化學習中，定向對齊減輕了獎勵駭客行為
Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models

May 24

ByWenlong Deng, Jiaji Huang, Kaan Ozkara, Yushu Li, Christos Thrampoulidis, Xiaoxiao Li, Youngsuk Park

獎勵駭取的發生，源於模型透過利用捷徑來提升代理獎勵，而非實際解決預期任務。我們透過語言模型中強化學習更新的幾何結構來研究此失效模式，並主張獎勵駭取源於優化偏離穩定低維學習軌跡的現象。我們透過參數更新的主導奇異方向分析此偏移，並發現獎勵駭取運行的方向變化遠大於乾淨運行。基於此觀察，我們提出了「可信方向投影」方法，將梯度限制在乾淨參考子空間內。在數學推理的獎勵駭取實驗中，此方法延緩了捷徑利用，並更有效地保留了任務表現。

SemBridge：通过多语言语义桥梁实现稀疏编码器的语言迁移
SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges

May 25

BySeongtae Hong, Youngjoon Jang, Jia-Heui Ju, Hyeonseok Moon, Heuiseok Lim

稀疏編碼器藉由詞彙空間中詞項重要性的表示，實現高精度檢索，然而其以英語為中心的結構對非英語語言的語言遷移構成關鍵障礙。為克服此結構限制，我們提出SemBridge——一種專為稀疏編碼器跨語言適應設計的新穎嵌入初始化方法，該方法利用多語言橋接模型建立源語言與目標語言詞彙間的語義對齊。SemBridge並非直接依賴所有源語言詞元，而是選取少量語義相關的源語言詞元，並以此初始化每個目標語言詞元，從而有效過濾語義雜訊，將目標詞元重建為核心同義詞的精確線性組合。此舉不僅加速微調收斂，亦提升訓練效率。在五種語言與四種稀疏架構上的廣泛實驗表明，SemBridge在零樣本檢索表現上優於現有基準，並在微調後持續提升檢索效能。這些結果驗證SemBridge為在多語言環境中部署高效能稀疏檢索系統的實用解決方案。

SimuWoB：模擬真實世界手機應用程式以實現快速且忠實的GUI代理基準測試
SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

May 24

ByGuohong Liu, Jialei Ye, Pengzhi Gao, Wei Liu, Jian Luan, Yunxin Liu, Yuanchun Li

由大型語言模型驅動的行動圖形使用者介面代理已快速發展，亟需真實且全面的評估基準。現有基準雖重視可重現性，但受限於開源應用或檔案操作任務，因難以在真實應用中構建獎勵機制，導致基準設定與真實使用情境存在落差。此外，多數基準聚焦於基礎定位與導航，對於複雜、長程互動的涵蓋有限。為解決這些限制，我們提出 SimuWoB——一個完全合成的行動圖形使用者介面代理基準，包含 120 項跨越多種類型與難度級別的挑戰性任務。我們建構了一個穩健的虛擬環境生成框架，該框架能合成高保真度的任務與環境，並自動為每項任務提供有效獎勵。每個環境以無後端網頁形式部署，可透過網址存取，實現高效且可重現的評估。我們對多個最先進的行動圖形使用者介面代理進行了全面實驗，發現平均成功率僅為 27.92%，在長程任務中更降至 17.82%，凸顯當前代理在複雜場景中的顯著弱點。與真實樣本任務的評估結果比較顯示，基於我們合成環境的代理評估具有良好的泛化能力。我們進一步提供關鍵能力維度的診斷性見解，並討論對未來行動圖形使用者介面代理發展的啟示。

表徵優於路由：克服多時間尺度PPO中的代理目標操縱
Representation over Routing: Overcoming Surrogate Hacking in Multi-Timescale PPO

May 21

ByJing Sun

在強化學習中，時間信用分配長期以來一直是核心挑戰。受神經生物學中多巴胺系統的多時間尺度編碼啟發，近期研究嘗試在Actor-Critic架構（例如近端策略優化PPO）中引入多重折扣因子，以平衡短期反應與長期規劃。然而，本文揭示，在複雜的延遲獎勵任務中盲目融合多時間尺度信號，可能導致嚴重的演算法病理。我們系統性地證明，將時間注意力路由機制暴露於策略梯度會引發替代目標駭客攻擊，而採用無梯度不確定性加權則會觸發不可逆的近視退化，我們將此現象稱為「時間不確定性悖論」。為解決這些問題，我們提出目標解耦架構：在Critic端保留多時間尺度預測以強化輔助表徵學習，而在Actor端嚴格隔離短期信號，僅基於長期優勢更新策略。在LunarLander-v2環境中透過多個獨立隨機種子的嚴格實證評估顯示，我們提出的架構達成了統計上顯著的效能提升。無需依賴超參數調校，該架構能以最小變異數持續超越「環境解決」閾值，完全消除策略崩潰，並逃脫單時間尺度基準線所困的徘徊局部最優。可重現實驗的原始碼已公開於https://github.com/ben-dlwlrma/Representation-Over-Routing。

將通訊從策略中解耦：頻寬限制下的魯棒性多智能體強化學習
Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

May 20

ByAlexi Canesse, Benoît Goupil, Jesse Read, Sonia Vanier

通信在多智能體強化學習（MARL）中促進了協調，但許多現實應用（例如使用無人機群進行搜索與救援）需在嚴格的頻寬限制下運行。許多通信架構仍存在耦合瓶頸，即共享的潛在表徵同時用於策略執行與智能體間通信。因此，減少訊息大小會直接限制策略的潛在空間，常導致性能顯著下降。我們透過兩項貢獻解決此問題。首先，我們引入β——一種正規化的每個智能體頻寬預算，將稀疏性、回合數與訊息維度統整為單一可比較的約束條件。其次，我們提出SLIM——一種最小化架構，將通信路徑與策略的潛在表徵解耦，從而在受益於同步通信的同時，將頻寬影響與策略容量影響分離。我們在多個部分可觀察的MARL基準測試中評估該方法（此類場景中通信至關重要）。我們的方案在受限的通信條件下展現出最先進的性能表現、可擴展性與穩健性，且當頻寬縮減時性能僅有輕微下降。

迈向评估工程化：机器学习评估框架在实际环境中的实证研究
Towards Evaluation Engineering: An Empirical Study of ML Evaluation Harnesses in the Wild

May 22

ByZhimin Zhao, Zehao Wang, Abdul Ali Bangash, Bram Adams, Ahmed E. Hassan

評估框架（evaluation harnesses）是透過管理模型調用、資料載入、指標計算與結果報告來協調模型評估的軟體系統。儘管其在機器學習基礎設施中扮演關鍵角色，但其運作挑戰與工程問題迄今尚未獲得足夠重視。我們針對57個評估框架進行實證研究，歸納出五階段框架模型，並依據工作流程階段與根本原因將16,560個議題進行分類。大多數評估框架的運作挑戰集中在規格階段（佔41.4%的議題），此階段框架需整合外部模型、資料集與評分裁判。運作挑戰最常見的三項根本原因為：未實作功能（24.3%）、文件缺口（20.3%）以及缺乏輸入驗證（17.2%），三者合計佔分類議題的61.7%，涵蓋既有功能缺陷與阻礙預期工作流程的能力缺口。根本原因亦隨工作流程階段而異：環境不相容與外部依賴中斷佔佈建問題的36.2%，而演算法錯誤（25.9%）與驗證缺口（22.5%）則主導評估問題。綜合以上貢獻，本研究為將評估工程視為獨立的軟體工程領域建立了實證基礎。

ECHO: 終端代理無償學習世界模型
ECHO: Terminal Agents Learn World Models for Free

May 23

ByVaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos

CLI代理是語言模型最接近具身場景的實現：模型發出指令，終端機執行指令，而返回的串流——包括標準輸出、錯誤訊息、檔案、日誌及追蹤記錄——則記錄了操作的後果。我們主張這條串流本身即是一種監督訊號，但標準的代理強化學習卻將其拋棄：GRPO風格的訓練僅使用稀疏的結果層級獎勵來更新動作標記，卻忽略了推論過程中已產生的環境回應。失敗的推論結果幾乎無法提供策略梯度訊號，儘管其中蕴含了環境如何回應的豐富證據。為此，我們提出ECHO（環境交叉熵混合目標），這是一種結合標準策略梯度損失（作用於動作標記）與輔助損失的混合目標，後者訓練策略模型預測其自身動作所導致的環境觀察標記。ECHO重複使用與GRPO相同的前向傳遞，無需額外的推論過程，並將終端機反饋轉化為所有推論結果的密集監督訊號。在TerminalBench-2.0基準上，ECHO將GRPO的首次通過率提升了一倍：Qwen3-8B從2.70%提高到5.17%，Qwen3-14B從5.17%提高到10.79%。此外，即使面對非模型自身生成的軌跡，ECHO也能產生更準確預測終端機動態的策略：在保留的推論結果中，ECHO顯著降低了環境標記的交叉熵，而單獨使用GRPO則幾乎無法改變交叉熵。基於Qwen3-8B的基礎模型，ECHO在無需專家示範的情況下，達到了專家SFT後再經GRPO訓練在保留終端機任務上的表現；在TerminalBench-2.0上，它大約恢復了專家SFT初始化效益的一半。在某些設定中，僅使用環境預測損失就能實現無驗證器的自我改進，使策略僅透過與環境互動的學習便能改善未見過的領域外任務。綜合這些結果顯示，環境觀察不僅是後續動作的上下文，更是每一輪推論中已然存在的、基於當前策略的密集監督訊號。

以生成式人工智慧擴大交通運輸安全數據的存取：一個基於綱要的空間自然語言查詢框架
Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

May 20

ByMahdi Azhdari, Eric J. Gonzales

交通安全性分析需透過基於地理資訊系統的工作流程整合事故記錄、道路屬性及地理空間數據，但各機構與社區利害關係人對此類數據的取得仍存在差異。技術門檻導致安全規劃核心的分析工具與能實際操作這些工具的從業人員之間出現斷層。地方機關、學校委員會及居民雖有安全顧慮，卻缺乏檢索、篩選、繪製及分析相關數據的能力。生成式人工智慧提供了縮小此差距的契機，但其在公共領域的應用引發了可靠性、可再現性及治理等問題。本文提出一套基於架構的自然語言介面，應用於交通安全分析，藉由大型語言模型解讀使用者意圖，同時確保在權威資料庫上執行具確定性且可審查的運算。使用者查詢被轉譯為結構化語意框架，經由規則驗證層校驗後，編譯成形質有向無環圖的空間運算，最終在PostGIS資料庫中執行。此限制性設計將語言解讀與確定性執行分離，不僅確保結果可再現且架構嚴謹，同時消除使用障礙。本研究以麻薩諸塞州全州交通安全資料庫進行評估，該資料庫整合事故記錄、道路屬性及包含學校、公車站、行人穿越道及行政界線的地理空間圖層。所有查詢均成功執行；驗證層在29%的評估查詢中修正錯誤，反映出靈活自然語言與嚴格架構要求之間的落差。研究結果表明，結合自然語言可及性與確定性執行是擴大交通安全數據使用範圍的務實方向，對公共領域規劃中可信賴人工智慧的應用具有啟發意義。

HorizonStream：用於流式三維重建的長程注意力
HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction

May 22

ByChong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang

線上3D重建需在嚴格的因果性與有限記憶體限制下，估計相機姿態與場景幾何。現有方法在長序列中常出現飄移、抖動或崩潰。我們將這些失敗追溯至一個根本性的錯配：串流幾何本質上具有時間異質性，證據涵蓋從短暫對應到持久全局尺度。然而，當前架構施加了統一且病態的影響模式——例如滑動視窗強加硬性截斷，而無閘控迴圈與因果注意力則導致快取飽和及尖峰式注意力沉點。為解決此問題，我們將幾何傳播形式化為證據影響核，並提出HorizonStream——一種明確分解此核的長時域Transformer。針對長程時間因子，幾何線性注意力學習通道層級衰減率，以實現有限、多時間尺度的幾何證據傳播；針對短程空間因子，幾何局部注意力搭配時空旋轉位置編碼執行可靠的3D匹配，同時抑制注意力沉點。最後，度量讀取標記直接從持久幾何狀態中恢復穩定尺度與剛體姿態。大量實驗證明，僅以48幀片段訓練的HorizonStream，能在常數記憶體與線性時間下穩定泛化至超過10,000幀的序列，達到最先進的串流3D重建效能。專案頁面：https://3dagentworld.github.io/horizonstream/

RankJudge：一種多輪LLM作為評判者的合成基準生成器
RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

May 20

ByZhenwei Tang, Zhaoyan Liu, Rasa Hosseinzadeh, Tongzi Wu, Keyvan Golestan, Jesse C. Cresswell

隨著以互動式LLM為基礎的應用程式被開發與優化，模型開發者需要在多個面向評估生成文本的品質。對於較簡單的系統，人工評估或許可行，但在像對話式聊天機器人這類複雜系統中，生成的文本量可能遠超人力的標註資源。模型開發者已開始高度依賴自動評估機制，亦即利用LLM本身來評判生成品質。然而，現有的LLM作為評審基準大多聚焦於簡單的問答任務，並未能反映多輪對話的複雜性。我們提出RankJudge，這是一個用於評估LLM作為評審在多輪對話中表現的基準生成器，且這些對話皆以參考文件為基礎。RankJudge會生成成對的對話，其中一組對話在某個回合中嵌入單一缺陷。這種設計使成對對話能夠被明確標註為較佳或較差，並精準地將失敗類型歸因至個別回合，從而實現嚴格的聯合正確性判斷標準。我們在機器學習、生物醫學與金融領域實作RankJudge，評估21個前沿LLM評審，並透過Bradley-Terry模型對這些評審進行排名。我們的框架還能根據難度評級對每組對話進行排序，並利用此特性動態篩選評估子集以降低標籤雜訊，這點已透過人工標註驗證。我們發現，在部分觀測、較寬鬆的正確性標準以及另一種隨機漫步評分演算法下，評審排名仍維持穩定。

MotiMotion：動作控制的影片生成與視覺推理
MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

May 21

ByLee Hsin-Ying, Hanwen Jiang, Yiqun Mei, Jing Shi, Ming-Hsuan Yang, Zhixin Shu

當前基於運動控制的影像到影片生成模型，往往嚴格遵循使用者提供的軌跡，而這些軌跡通常稀疏、不精確且因果不完整。此種依賴性常導致不自然或不合理的結果，尤其容易忽略次要的因果連鎖反應。為解決此問題，我們提出MotiMotion，一個將運動控制重新構思為「先推理後生成」問題的新穎框架。為促進基於因果關係且符合常識的互動，我們利用一個免訓練的視覺語言推理器，來優化主要軌跡的影像空間座標，並推測合理的次要運動。為進一步提升運動的自然性，我們提出一種信心感知控制方案，透過調節引導強度，使模型能在高信心規劃下緊密遵循指令，同時在低信心輸入下，利用其內部生成先驗修正瑕疵。為支援系統性評估，我們建立了一個新的影像到影片基準MotiBench，其中包含以互動為核心的場景，在這些場景中，新事件由運動觸發。基於VLM的評估以及在MotiBench上進行的使用者研究均顯示，MotiMotion生成的影片在物體行為與互動上更為合理，且優於現有方法。

基於實例分割的像素級路面損傷評估
Pixel-Level Pavement Distress Assessment Using Instance Segmentation

May 25

ByLogan Dewick, Bibesh Pyakurel, Kong Pheng Yang, Nazim Choudhury, M. G. Sarwar Murshed

自動化路面病害評估不只需要影像層級的分類或粗略的邊界框檢測，更要求精確定位細長、分叉且不規則的裂縫，以達到養護量化所需的幾何精度。本文提出一套基於Mask R-CNN實例分割的視覺式路面病害分析系統，並在自訂的野外道路影像資料集UWGB-StreetCrack上進行評估。該資料集由車載智慧型手機收集，並以多邊形標籤人工標註縱向裂縫、橫向裂縫、龜裂裂縫及坑洞。研究中採用五種基於Detectron2的Mask R-CNN主幹網路變體，並在一致微調流程下進行比較。表現最佳的模型為以ResNet-101 FPN為主幹的Mask R-CNN，在專案特定的邊界框匹配協議下，達到84.23%的精確率、90.04%的召回率，以及87.04%的F1分數。該模型估算出的裂縫面積比例總和為2.164%，與真實裂縫面積比例2.170%高度吻合。為了將分割系統與以檢測器為導向的替代方案進行對照，本研究亦將基於CSPDarknet53的YOLO檢測器進行調整並重新訓練於相同資料集，其在驗證協議下僅達到27.5%的精確率與20.7%的召回率。結果顯示，實例分割是處理實地路面影像與估算裂縫總面積的務實方向，同時也揭示了標註一致性、類別不平衡、混淆因子排除及遮罩層級基準測試等未解挑戰。

ClaimDiff-RL：通過視覺主張比較的細粒度描述強化學習
ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison

May 24

ByTianle Li, Xuyang Shen, Yan Ma, Rongxin Guo, Shaoxiang Chen, Jiacheng Chen, Haochen Wang, Hongyang Tang, Yucong Zhou, Yu Cheng

長格式圖像字幕揭示了強化學習中的獎勵粒度問題：字幕被視為完整序列進行評判，而重要的錯誤發生在個別視覺陳述的層級。一個良好的密集描述應兼具忠實性與資訊豐富性，避免幻覺卻不遺漏關鍵細節。然而，成對偏好、基於參考的指標以及整體標量獎勵將這些局部錯誤壓縮為單一的序列級訊號，模糊了事實性與覆蓋率之間的權衡。我們提出ClaimDiff-RL框架，該框架使用以參考為條件的原子陳述差異作為字幕強化學習的獎勵單位。給定一張圖像、一段演員字幕與一段參考字幕，多模態判斷器會列舉出基於視覺的差異，針對每項差異與圖像進行驗證，賦予開放詞彙的錯誤類型與嚴重程度，並產生每項差異的統計數據以組成獎勵。這使得幻覺陳述與遺漏的重要事實得以分別衡量與調整。實驗顯示，整體標量獎勵可能透過增加遺漏事實來減少幻覺，而ClaimDiff-RL則揭示了這種忠實性與覆蓋率的權衡，並實現更平衡的操作點。在一個包含160張圖像的人工標註診斷基準、公開字幕基準以及視覺問答基準上，ClaimDiff-RL改善了幻覺與遺漏事實的平衡，保留了通用能力，甚至在物體計數、空間關係與場景識別等多項細粒度能力維度上超越了Gemini-3-Pro-Preview。這些結果表明，帶有類型且可驗證的陳述差異是實現細粒度且可診斷的字幕強化學習的有效獎勵單位。

解碼大型推理模型中的評審機制
Decoding the Critique Mechanism in Large Reasoning Models

May 22

ByHoang Phan, Quang H. Nguyen, Hung T. Q. Le, Xiusi Chen, Heng Ji, Khoa D. Doan

大型推理模型（LRMs）具備回溯與自我驗證機制，使其能修正中間步驟並得出正確解答，從而在複雜邏輯基準測試中展現優異表現。我們假設這類行為僅在模型擁有足夠強大的「批判」能力來偵測自身錯誤時才有助益。本研究系統性地探討當前LRMs如何透過在推理中間步驟中插入算術錯誤來從失誤中恢復。值得注意的是，我們發現一個特殊且重要的現象：儘管錯誤在整個思維鏈（CoT）中持續傳播而未出現任何口頭修正，模型在思考過程結束後仍能得出正確的最終答案。此恢復現象暗示存在一種內部機制幫助模型偵測錯誤並觸發自我修正，我們稱之為隱藏批判能力。基於特徵空間分析，我們辨識出一個高度可解釋的批判向量來表徵此行為。跨越多個模型規模與系列的廣泛實驗證明，使用此向量操縱潛在表徵可提升模型的錯誤偵測能力，並在無額外訓練成本下強化測試時擴展的性能。我們的研究成果提供對LRMs批判行為的寶貴理解，為控制與改進其自我驗證機制指出一條前景可期的方向。我們的程式碼開源於：https://github.com/mail-research/lrm-critique-vectors。

見微知著：透過反事實擾動實現弱監督日誌實例異常定位
Seeing the Needle in the Haystack: Towards Weakly-Supervised Log Instance Anomaly Localization via Counterfactual Perturbation

May 9

ByYutszyuk Wong, Wentai Wu, Yuen-Ying Yeung, Weiwei Lin

日誌異常偵測是系統運維與安全保障中的關鍵任務。然而，在大規模網路化系統中，日誌資料以巨量規模產生，而實例層級的人工標註成本極高，為細粒度異常定位帶來嚴峻挑戰。為解決此問題，我們提出LogMILP（基於原型增強與擾動之多實例學習的日誌異常定位方法），一種僅需包層級標籤即可實現包層級異常偵測與實例層級異常定位的弱監督框架。該方法透過原型引導的結構化建模與反事實擾動一致性正則化，引導模型精準定位關鍵日誌條目，從而在粗粒度監督下提升定位可靠性與可解釋性。在三個公開資料集上的實驗結果顯示，LogMILP在維持競爭性偵測效能的同時，能顯著提升實例層級定位的可靠性。本方法程式碼已開源於 https://github.com/YUK1207/LogMILP。