AI研究論文每日精選

每日精選AI研究論文及翻譯

在離策略指導下學習推理
Learning to Reason under Off-Policy Guidance

Apr 21, 2025

Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang

856

近期在大規模推理模型（LRMs）上的進展表明，通過基於簡單規則的獎勵進行強化學習（RL），可以湧現出多步推理和自我反思等複雜行為。然而，現有的零RL方法本質上是「在策略」的，這限制了學習僅依賴模型自身的輸出，無法獲得超越其初始能力的推理技能。我們引入了LUFFY（在離策略指導下學習推理），這是一個通過離策略推理軌跡來增強零RL的框架。LUFFY在訓練過程中動態平衡模仿與探索，通過結合離策略示範和在策略的rollout來實現。值得注意的是，我們提出了通過正則化重要性採樣進行策略塑形，以避免在混合策略訓練中出現表面化和僵化的模仿。顯著的是，LUFFY在六個數學基準測試中平均提升了超過+7.0分，並在分佈外任務中取得了超過+6.2分的優勢。它還大幅超越了基於模仿的監督微調（SFT），特別是在泛化能力方面。分析顯示，LUFFY不僅能有效模仿，還能超越示範進行探索，為訓練具有離策略指導的可泛化推理模型提供了一條可擴展的路徑。

Eagle 2.5：提升前沿视觉-语言模型的长上下文后训练能力
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Apr 21, 2025

Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu

655

我們推出Eagle 2.5，這是一系列專為長上下文多模態學習設計的前沿視覺-語言模型（VLMs）。我們的工作針對長視頻理解和高分辨率圖像識別中的挑戰，提出了一個適用於這兩項任務的通用框架。該訓練框架融合了自動降質採樣和圖像區域保留兩項技術，以保持上下文完整性和視覺細節。此外，框架還包含多項針對長上下文數據訓練的效率優化。最後，我們提出了Eagle-Video-110K，這是一個整合了故事級和片段級註解的新數據集，旨在促進長視頻理解。Eagle 2.5在長上下文多模態基準測試中展現了顯著提升，為現有VLMs的局限性提供了強有力的解決方案。值得注意的是，我們的最佳模型Eagle 2.5-8B在512輸入幀的Video-MME測試中達到了72.4%的成績，與頂級商業模型如GPT-4o以及大規模開源模型如Qwen2.5-VL-72B和InternVL2.5-78B的表現相當。

FlowReasoner：強化查詢層級元代理
FlowReasoner: Reinforcing Query-Level Meta-Agents

Apr 21, 2025

Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang

462

本文提出了一種名為FlowReasoner的查詢級元代理，旨在自動化設計查詢級多代理系統，即為每個用戶查詢構建一個獨立的系統。我們的核心思想是通過外部執行反饋來激勵基於推理的元代理。具體而言，我們首先通過提煉DeepSeek R1，賦予FlowReasoner生成多代理系統的基本推理能力。隨後，我們利用帶有外部執行反饋的強化學習（RL）進一步增強其能力。設計了一種多用途獎勵機制，從性能、複雜性和效率三個方面指導RL訓練。通過這種方式，FlowReasoner能夠通過深思熟慮的推理為每個用戶查詢生成個性化的多代理系統。在工程和競賽代碼基準測試上的實驗證明了FlowReasoner的優越性。值得注意的是，它在三個基準測試中的準確率超越了o1-mini達10.52%。代碼已開源於https://github.com/sail-sg/FlowReasoner。

ToolRL：獎勵即為工具學習之所需
ToolRL: Reward is All Tool Learning Needs

Apr 16, 2025

Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji

442

當前的大型語言模型（LLMs）通常會通過監督式微調（SFT）來獲得工具使用能力。然而，SFT在面對陌生或複雜的工具使用場景時，其泛化能力往往不足。最近，強化學習（RL）領域的進展，特別是類似R1的模型，展現出了令人鼓舞的推理與泛化能力。但針對工具使用的獎勵設計面臨獨特挑戰：多種工具可能被調用，且參數各異，而粗粒度的獎勵信號（如答案匹配）無法提供有效學習所需的細粒度反饋。在本研究中，我們首次在RL範式下對工具選擇與應用任務的獎勵設計進行了全面研究。我們系統性地探索了多種獎勵策略，分析了其類型、尺度、粒度及時間動態。基於這些洞察，我們提出了一種針對工具使用任務的原則性獎勵設計，並應用群組相對策略優化（GRPO）來訓練LLMs。在多樣化基準上的實證評估表明，我們的方法實現了穩健、可擴展且穩定的訓練，相較於基礎模型提升了17%，相較於SFT模型提升了15%。這些結果凸顯了深思熟慮的獎勵設計在提升LLMs工具使用能力與泛化性能中的關鍵作用。所有代碼均已公開，以促進未來研究。

OTC：基於強化學習的最優工具調用
OTC: Optimal Tool Calls via Reinforcement Learning

Apr 21, 2025

Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji

332

工具集成推理（Tool-integrated Reasoning, TIR）增強了大語言模型（Large Language Models, LLMs）的能力，使其能夠調用外部工具，如搜索引擎和代碼解釋器，以解決僅靠語言推理無法完成的任務。雖然強化學習（Reinforcement Learning, RL）在通過優化最終答案正確性來改進TIR方面顯示出潛力，但現有方法往往忽略了工具使用的效率和成本。這可能導致次優行為，包括過多的工具調用增加了計算和財務開銷，或工具使用不足影響了答案質量。在本研究中，我們提出了最優工具調用控制策略優化（Optimal Tool Call-controlled Policy Optimization, OTC-PO），這是一個簡單而有效的基於RL的框架，鼓勵模型以最少的工具調用生成準確的答案。我們的方法引入了一種工具集成獎勵，同時考慮正確性和工具效率，從而提高工具生產力。我們在近端策略優化（Proximal Policy Optimization, PPO）和群組相對偏好優化（Group Relative Preference Optimization, GRPO）中實例化了這一框架，分別形成了OTC-PPO和OTC-GRPO。在多個QA基準測試中，使用Qwen-2.5和Qwen-Math進行的實驗表明，我們的方法將工具調用減少了高達73.1%，並將工具生產力提高了高達229.4%，同時保持了相當的答案準確性。據我們所知，這是第一個明確優化TIR中工具使用效率的基於RL的框架。

X-Teaming：基於自適應多代理的多輪越獄與防禦
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Apr 15, 2025

Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel

312

與語言模型（LMs）的多輪互動存在重大安全風險，因為有害意圖可能策略性地分散在對話中。然而，絕大多數先前的研究都集中在單輪安全性上，而適應性和多樣性仍然是多輪紅隊測試的關鍵挑戰。為應對這些挑戰，我們提出了X-Teaming，這是一個可擴展的框架，系統性地探索看似無害的互動如何升級為有害結果，並生成相應的攻擊場景。X-Teaming採用協作代理進行規劃、攻擊優化和驗證，在多輪越獄效果和多樣性方面達到了最先進的水平，在代表性的領先開源和閉源模型上成功率最高可達98.1%。特別是，X-Teaming對最新的Claude 3.7 Sonnet模型達到了96.2%的攻擊成功率，該模型曾被認為幾乎對單輪攻擊免疫。基於X-Teaming，我們推出了XGuard-Train，這是一個開源的多輪安全訓練數據集，規模是先前最佳資源的20倍，包含30K個互動式越獄案例，旨在為LMs實現穩健的多輪安全對齊。我們的工作為緩解複雜的對話攻擊提供了必要的工具和見解，推動了LMs的多輪安全性發展。

UFO2：桌面代理操作系统
UFO2: The Desktop AgentOS

Apr 20, 2025

Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

283

近期，由多模态大语言模型（LLMs）驱动的计算机使用代理（CUAs）为通过自然语言自动化复杂桌面工作流提供了有前景的方向。然而，大多数现有的CUAs仍停留在概念原型阶段，受限于浅层次的操作系统集成、基于截图的脆弱交互以及中断式的执行。我们推出了UFO2，一个面向Windows桌面的多代理操作系统，它将CUAs提升至实用、系统级的自动化水平。UFO2的核心是一个集中式的HostAgent，负责任务分解与协调，同时配备了一系列专为应用程序设计的AppAgent，这些AppAgent拥有原生API、领域特定知识以及统一的GUI-API操作层。这一架构在保持模块化和可扩展性的同时，实现了稳健的任务执行。通过融合Windows UI Automation (UIA)与基于视觉的解析，混合控制检测管道支持多样化的界面风格。运行时效率通过推测性多动作规划得到进一步提升，减少了每一步的LLM开销。最后，画中画（PiP）界面使得自动化能在隔离的虚拟桌面内进行，允许代理与用户并行操作，互不干扰。我们在超过20个实际Windows应用程序中对UFO2进行了评估，结果显示其在鲁棒性和执行准确性上相较于先前的CUAs有显著提升。我们的成果表明，深度的操作系统集成为实现可靠、用户导向的桌面自动化开辟了一条可扩展的道路。

SphereDiff：基於球形潛在表徵的免調參全向全景圖像與視頻生成
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

Apr 19, 2025

Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo

282

隨著AR/VR應用需求的日益增長，高品質360度全景內容的生成需求也愈發凸顯。然而，由於等距柱狀投影（ERP）所帶來的嚴重失真，生成高品質的360度全景圖像和視頻仍是一項具有挑戰性的任務。現有方法要麼在有限的ERP數據集上微調預訓練的擴散模型，要麼嘗試無需微調的方法，但仍依賴於ERP的潛在表示，這導致在極點附近出現不連續性。本文提出了一種名為SphereDiff的新方法，利用最先進的擴散模型實現無縫360度全景圖像和視頻的生成，無需額外微調。我們定義了一種球形潛在表示，確保所有視角的均勻分佈，從而緩解ERP固有的失真問題。我們將多擴散技術擴展至球形潛在空間，並提出了一種球形潛在採樣方法，以便直接使用預訓練的擴散模型。此外，我們引入了失真感知加權平均技術，進一步提升投影過程中的生成質量。我們的方法在生成360度全景內容方面優於現有方法，同時保持了高保真度，為沉浸式AR/VR應用提供了一個穩健的解決方案。代碼可在此處獲取：https://github.com/pmh9960/SphereDiff。

THOUGHTTERMINATOR：推理模型中的過度思考之基準測試、校準與緩解
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models

Apr 17, 2025

Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang

242

推理模型在傳統語言模型難以應對的複雜任務上展現了卓越性能。然而，許多模型存在過度思考的問題——生成大量不必要的標記，這些標記並未提升問題解答的準確性。我們引入了問題難度的近似度量方法，並證明了問題難度與最佳標記消耗量之間存在明確關聯，同時評估了多種推理模型在有效分配最佳標記數量方面的校準程度。我們發現，總體而言，推理模型的校準效果不佳，尤其是在簡單問題上。為評估模型在簡單問題上的校準情況，我們引入了DUMB500數據集，該數據集包含極其簡單的數學、推理、編碼及任務問題，並將推理模型在這些簡單示例與現有前沿基準中同一任務領域的極難示例上進行聯合評估。最後，我們提出了THOUGHTTERMINATOR，這是一種無需訓練的黑箱解碼技術，能顯著提升推理模型的校準效果。

StyleMe3D：基於多重編碼器與解耦先驗的三維高斯風格化
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

Apr 21, 2025

Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li

232

3D高斯潑濺（3DGS）在照片級真實場景重建方面表現卓越，但在處理風格化場景（如卡通、遊戲）時卻面臨挑戰，原因在於其紋理碎片化、語義不對齊以及對抽象美學的適應性有限。我們提出了StyleMe3D，這是一個用於3D高斯潑濺風格轉移的整體框架，它整合了多模態風格條件、多層次語義對齊以及感知質量增強。我們的核心見解包括：（1）僅優化RGB屬性可在風格化過程中保持幾何完整性；（2）分離低、中、高層次語義對於連貫的風格轉移至關重要；（3）在孤立物體和複雜場景中的可擴展性對於實際部署是必不可少的。StyleMe3D引入了四個新組件：動態風格分數蒸餾（DSSD），利用Stable Diffusion的潛在空間進行語義對齊；對比風格描述符（CSD）用於局部、內容感知的紋理轉移；同時優化的尺度（SOS）以解耦風格細節和結構連貫性；以及3D高斯質量評估（3DG-QA），這是一個基於人類評分數據訓練的可微分美學先驗，用於抑制偽影並增強視覺和諧。在NeRF合成數據集（物體）和tandt db（場景）數據集上的評估顯示，StyleMe3D在保留幾何細節（如雕塑上的雕刻）和確保場景間的風格一致性（如景觀中的連貫光照）方面優於最先進的方法，同時保持實時渲染。這項工作橋接了照片級真實的3D高斯潑濺與藝術風格化，為遊戲、虛擬世界和數字藝術開闢了新的應用前景。

從另一視角審視：評估多模態大語言模型中的多視角理解能力
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Apr 21, 2025

Chun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma

232

多視角理解，即能夠整合不同視角的視覺信息以實現有效導航、操作和三維場景理解的能力，是將多模態大型語言模型（MLLMs）用作具身代理時面臨的根本挑戰。儘管近期的MLLMs在高層次推理和規劃方面展現了顯著進步，但在處理多視角幾何一致性和跨視角對應關係時，它們往往表現不佳。為了全面評估MLLMs在多視角場景推理中的挑戰，我們提出了All-Angles Bench，這是一個包含超過2,100個人類精心註釋的多視角問答對的基準測試，涵蓋90個多樣化的真實世界場景。我們的六項任務（計數、屬性識別、相對距離、相對方向、物體操作和相機姿態估計）專門測試模型的幾何對應能力以及跨視角信息一致對齊的能力。我們在包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o在內的27個代表性MLLMs上進行了廣泛實驗，並與人類評估者進行了對比，結果顯示出顯著的性能差距，表明當前的MLLMs遠未達到人類水平。通過深入分析，我們發現MLLMs在以下兩個方面表現尤為不足：（1）部分遮擋視角的跨視角對應關係；（2）建立粗略的相機姿態。這些發現凸顯了嵌入更強多視角意識的領域特定改進或模塊的必要性。我們相信，All-Angles Bench提供了寶貴的見解，並有助於縮小MLLMs與人類水平多視角理解之間的差距。該項目和基準測試已公開於https://danielchyeh.github.io/All-Angles-Bench/。

EasyEdit2：一個易於使用的導向框架，用於編輯大型語言模型
EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

Apr 21, 2025

Ziwen Xu, Shuxun Wang, Kewei Xu, Haoming Xu, Mengru Wang, Xinle Deng, Yunzhi Yao, Guozhou Zheng, Huajun Chen, Ningyu Zhang

222

本文介紹了EasyEdit2，這是一個旨在實現即插即用可調節性以控制大型語言模型（LLM）行為的框架。EasyEdit2支援多種測試時干預，包括安全性、情感、個性、推理模式、事實性和語言特徵。與其前身不同，EasyEdit2採用了一種專為無縫模型導向設計的新架構。它包含關鍵模組，如導向向量生成器和導向向量應用器，這些模組能夠自動生成並應用導向向量來影響模型的行為，而無需修改其參數。EasyEdit2的主要優勢之一是其易用性——用戶無需具備深入的技術知識。僅需一個示例，他們就能有效地引導和調整模型的反應，使得精確控制既易於實現又高效。我們實證報告了不同LLM上的模型導向性能，展示了這些技術的有效性。我們已在GitHub上發布了源代碼，網址為https://github.com/zjunlp/EasyEdit，並附帶了一個演示筆記本。此外，我們還提供了一個演示視頻，網址為https://zjunlp.github.io/project/EasyEdit2/video，以便快速了解。

Uni3C：統一精確的3D增強相機與人體運動控制以實現視頻生成
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation

Apr 21, 2025

Chenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu

212

相機與人體運動控制在視頻生成領域已得到廣泛研究，但現有方法通常將二者分開處理，面臨著高質量雙重註釋數據有限的問題。為此，我們提出了Uni3C，一個統一的三維增強框架，用於精確控制視頻生成中的相機與人體運動。Uni3C包含兩大關鍵貢獻。首先，我們提出了一個即插即用的控制模塊PCDController，它與凍結的視頻生成骨幹網絡協同訓練，利用單目深度反投影的點雲實現精確的相機控制。通過結合點雲的強大三維先驗知識和視頻基礎模型的強大能力，PCDController展現了出色的泛化性能，無論推理骨幹是凍結還是微調，均能表現良好。這種靈活性使得Uni3C的不同模塊能在特定領域（即相機控制或人體運動控制）分別訓練，降低對聯合註釋數據的依賴。其次，我們提出了一種聯合對齊的三維世界引導機制，用於推理階段，無縫整合場景點雲與SMPL-X角色，從而統一相機與人體運動的控制信號。大量實驗證實，PCDController在驅動視頻生成微調骨幹的相機運動方面具有很強的魯棒性。Uni3C在相機可控性和人體運動質量上均大幅超越競爭對手。此外，我們還收集了包含挑戰性相機移動和人體動作的定制驗證集，以驗證我們方法的有效性。

LeetCodeDataset：一個用於穩健評估與高效訓練程式碼大型語言模型的時序資料集
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

Apr 20, 2025

Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu

192

我們推出了LeetCodeDataset，這是一個用於評估和訓練代碼生成模型的高質量基準，解決了大型語言模型（LLM）研究中的兩個關鍵挑戰：缺乏以推理為核心的編碼基準以及自包含的訓練測試平台。通過精心挑選LeetCode的Python問題，並配備豐富的元數據、廣泛的覆蓋範圍、每個問題超過100個測試案例以及時間劃分（2024年7月前後），我們的數據集實現了無污染評估和高效的監督微調（SFT）。實驗表明，推理模型顯著優於非推理模型，而僅使用2.6K個模型生成的解決方案進行SFT，就能達到與使用110K樣本相當的性能。該數據集和評估框架已在Hugging Face和Github上公開。

InfiGUI-R1：將多模態GUI代理從被動執行者推進為深思熟慮的推理者
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Apr 19, 2025

Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu

132

多模态大语言模型（MLLMs）已赋能图形用户界面（GUI）代理，在自动化计算设备任务方面展现出潜力。近期研究开始探索GUI任务中的推理，并取得了鼓舞人心的成果。然而，当前许多方法依赖于手动设计的推理模板，这可能导致推理在面对复杂GUI环境时不够稳健和适应性强。同时，一些现有代理仍作为反应型执行者运作，主要依赖隐式推理，可能缺乏执行需要规划与错误恢复的GUI任务所需的深度。我们认为，推动这些代理进步需要从反应型执行转向基于深思熟虑的推理执行。为促进这一转变，我们引入了InfiGUI-R1，一个通过我们的Actor2Reasoner框架开发的MLLM基础GUI代理，该框架是一个以推理为核心、分两阶段训练的方法，旨在逐步将代理从反应型执行者进化为深思熟虑的推理者。第一阶段，推理注入，专注于建立基础推理器。我们采用空间推理蒸馏，通过包含明确推理步骤的轨迹，将跨模态空间推理能力从教师模型迁移至MLLMs，使模型在生成行动前能整合GUI视觉空间信息与逻辑推理。第二阶段，深思熟虑增强，利用强化学习将基础推理器精炼为深思熟虑型。此阶段引入两种方法：子目标引导，奖励模型生成准确的中间子目标；错误恢复场景构建，从易出错步骤中创建失败与恢复的训练场景。实验结果显示，InfiGUI-R1在GUI定位与轨迹任务中表现出色。资源详见https://github.com/Reallm-Labs/InfiGUI-R1。

LearnAct：具備統一示範基準的少樣本移動端GUI代理
LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark

Apr 18, 2025

Guangyi Liu, Pengxiang Zhao, Liang Liu, Zhiming Chen, Yuxiang Chai, Shuai Ren, Hao Wang, Shibo He, Wenchao Meng

122

移動端GUI代理在自動化任務方面展現出潛力，但在多樣化的現實場景中面臨泛化挑戰。傳統方法依賴於大規模數據集的預訓練或微調，難以應對移動應用的多樣性和用戶特定任務的複雜性。我們提出通過人類示範來增強移動GUI代理的能力，重點提升其在未見場景中的表現，而非追求通過更大數據集實現通用泛化。為實現這一範式，我們引入了LearnGUI，這是首個專為研究基於示範學習的移動GUI代理而設計的綜合數據集，包含2,252個離線任務和101個在線任務，並配有高質量的人類示範。我們進一步開發了LearnAct，這是一個精密的多元代理框架，能自動從示範中提取知識以提升任務完成度。該框架整合了三個專用代理：DemoParser用於知識提取，KnowSeeker負責相關知識檢索，ActExecutor則執行基於示範的任務。實驗結果顯示，在離線和在線評估中均取得了顯著的性能提升。在離線評估中，單次示範使模型性能提升，將Gemini-1.5-Pro的準確率從19.3%提高至51.7%。在在線評估中，我們的框架使UI-TARS-7B-SFT的任務成功率從18.1%提升至32.8%。LearnAct框架與LearnGUI基準的建立，標誌著基於示範的學習成為打造更具適應性、個性化且可部署的移動GUI代理的一個有前景的方向。

DRAGON：分佈式獎勵優化擴散生成模型
DRAGON: Distributional Rewards Optimize Diffusion Generative Models

Apr 21, 2025

Yatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan

112

我們提出了分佈式獎勵生成優化框架（DRAGON），這是一個用於微調媒體生成模型以達成期望結果的通用框架。與傳統的基於人類反饋的強化學習（RLHF）或成對偏好方法（如直接偏好優化DPO）相比，DRAGON更具靈活性。它能夠優化評估單個樣本或樣本分佈的獎勵函數，使其兼容於廣泛的實例級、實例到分佈以及分佈到分佈的獎勵類型。利用這一靈活性，我們通過選擇編碼器和一組參考樣本來構建新穎的獎勵函數，從而創建一個示範分佈。當使用跨模態編碼器（如CLAP）時，參考樣本可能來自不同的模態（例如，文本與音頻）。隨後，DRAGON收集在線和策略生成的樣本，對其進行評分以構建正例示範集和負例集，並利用兩者之間的對比來最大化獎勵。在評估階段，我們使用20種不同的獎勵函數對一個音頻領域的文本到音樂擴散模型進行微調，包括自定義的音樂美學模型、CLAP分數、Vendi多樣性以及Frechet音頻距離（FAD）。我們進一步比較了實例級（每首歌曲）和全數據集FAD設置，同時對多種FAD編碼器和參考集進行了消融實驗。在所有20個目標獎勵上，DRAGON實現了81.45%的平均勝率。此外，基於示範集的獎勵函數確實提升了生成質量，並與基於模型的獎勵相當。在合適的示範集下，DRAGON在未經人類偏好註釋訓練的情況下，達到了60.95%的人類投票音樂質量勝率。因此，DRAGON展示了一種新的設計和優化獎勵函數的方法，以提升人類感知的質量。音頻示例請訪問https://ml-dragon.github.io/web。

NEMOTRON-CROSSTHINK：將自我學習能力擴展至數學推理之外
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning

Apr 15, 2025

Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

114

大型語言模型（LLMs）已展現出強大的推理能力，尤其是在通過強化學習（RL）進行增強後。雖然先前的研究已成功將RL應用於數學推理——其中規則和正確性有明確定義——但由於數據有限、缺乏可驗證的獎勵結構以及多樣化的任務需求，將這些方法推廣到更廣泛的推理領域仍然具有挑戰性。在本研究中，我們提出了NEMOTRON-CROSSTHINK框架，該框架系統地將多領域語料庫（包括合成和現實世界的問答對）納入RL訓練，以提高跨多樣推理任務的泛化能力。NEMOTRON-CROSSTHINK通過以下方式應對關鍵挑戰：(1) 整合來自STEM、人文、社會科學等多個領域的數據；(2) 應用結構化模板（如多選題和開放式問題）來控制答案空間的複雜性；(3) 篩選可驗證的答案；(4) 優化數據混合策略，有效利用多來源數據。我們的方法實現了超越數學的可擴展且可驗證的獎勵建模，並在數學（MATH-500：+30.1%，AMC23：+27.5%）和非數學推理基準（MMLU-PRO：+12.8%，GPQA-DIAMOND：+11.3%，AGIEVAL：+15.1%，SUPERGPQA：+3.8%）上展示了顯著的準確性提升。此外，NEMOTRON-CROSSTHINK顯著提高了回應效率——正確答案使用的token數量減少了28%——顯示出更為集中和有效的推理。通過NEMOTRON-CROSSTHINK，我們證明了在RL中整合多領域、多格式數據能夠產生更準確、高效且具備泛化能力的LLMs。

透過強化視訊立方體壓縮實現高效視訊理解的輕量級多模態模型
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

Apr 21, 2025

Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua

103

大型多模态模型（LMMs）通常以统一的方式感知视频帧，这导致在处理具有内在变化时间信息密度的视频时产生计算效率低下的问题。本文提出了Quicksviewer，这是一种采用新感知范式的LMM，它利用Gumbel Softmax将非均匀密度的视频分割成不同的立方体，随后对每个立方体进行统一重采样，以实现高效的视频理解。这种简单直观的方法根据视频的时间密度动态在线压缩视频，显著减少了时空冗余（整体压缩率达到45倍），同时支持具有大感受野的高效训练。我们通过三个渐进阶段从语言主干训练模型，得益于感知效率，每个阶段平均包含420秒/1帧的长视频。仅使用0.8M的视频-文本样本进行训练，我们的模型在准确性上比采用固定分割策略的直接基线最多高出8.72，展示了其性能的有效性。在Video-MME上，Quicksviewer在适度序列长度下实现了SOTA，仅使用基线每帧所需token的5%。通过这一范式，增加输入帧数揭示了模型能力的清晰幂律关系。经验证，立方体网络生成的片段有助于分析视频中的连续事件。

TAPIP3D：持久3D幾何中的任意點追蹤
TAPIP3D: Tracking Any Point in Persistent 3D Geometry

Apr 20, 2025

Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki

我們介紹了TAPIP3D，這是一種用於單目RGB和RGB-D視頻中長期3D點追踪的新方法。TAPIP3D將視頻表示為相機穩定的時空特徵雲，利用深度和相機運動信息將2D視頻特徵提升到3D世界空間中，從而有效消除相機運動。TAPIP3D在這種穩定表示中迭代地優化多幀3D運動估計，實現了長時間的穩健追踪。為了解決3D點分佈的固有非規則性，我們提出了一種局部對注意力機制。這種3D上下文策略有效地利用了3D中的空間關係，形成信息豐富的特徵鄰域，以實現精確的3D軌跡估計。我們以3D為中心的方法顯著優於現有的3D點追踪方法，甚至在準確深度可用時，相比傳統的2D像素追踪器，還提高了2D追踪的準確性。它支持在相機坐標（即未穩定）和世界坐標中進行推理，我們的結果表明，補償相機運動可以提高追踪性能。我們的方法取代了先前2D和3D追踪器中使用的傳統2D方形相關鄰域，從而在各種3D點追踪基準測試中獲得更穩健和準確的結果。項目頁面：https://tapip3d.github.io

LookingGlass：基於拉普拉斯金字塔變形的生成式錯視圖像
LookingGlass: Generative Anamorphoses via Laplacian Pyramid Warping

Apr 11, 2025

Pascal Chang, Sergio Sancho, Jingwei Tang, Markus Gross, Vinicius C. Azevedo

變形圖像（Anamorphosis）指的是一類被刻意扭曲的圖像，當直接觀看時，它們顯得難以辨識。其真實形態僅在從特定視角觀察時才會顯現，這通常需要借助如鏡子或透鏡等折反射裝置。儘管這類數學裝置的構建可追溯至17世紀，但它們僅在特定觀察點下才可解讀，而在正常視角下往往失去意義。本文中，我們以生成式視角重新審視這些著名的光學幻象。借助潛在整流流模型，我們提出了一種方法來創建變形圖像，這些圖像在直接觀看時仍能保持有效的解讀。為此，我們引入了拉普拉斯金字塔扭曲技術，這是一種頻率感知的圖像扭曲方法，對生成高質量視覺效果至關重要。我們的工作將視覺字謎（Visual Anagrams，arXiv:2311.17919）擴展至潛在空間模型及更廣泛的空間變換，從而能夠創造新穎的生成式感知幻象。

RainbowPlus：透過演化式品質多樣性搜索提升對抗性提示生成
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search

Apr 21, 2025

Quy-Anh Dang, Chris Ngo, Truong-Son Hy

大型語言模型（LLMs）展現了卓越的能力，但也容易受到對抗性提示的影響，這些提示利用其弱點產生不安全或帶有偏見的輸出。現有的紅隊測試方法常面臨可擴展性挑戰、資源密集需求或攻擊策略多樣性有限的問題。我們提出了RainbowPlus，這是一個基於演化計算的新穎紅隊測試框架，通過自適應的質量多樣性（QD）搜索增強對抗性提示的生成，該搜索擴展了如MAP-Elites等經典演化算法，並針對語言模型進行了創新。通過使用多元素檔案存儲多樣化的高質量提示，以及一個全面的適應度函數來同時評估多個提示，RainbowPlus克服了先前QD方法（如Rainbow Teaming）中單一提示檔案和成對比較的限制。在六個基準數據集和四個開源LLMs上比較RainbowPlus與QD方法的實驗顯示，其攻擊成功率（ASR）和多樣性（Diverse-Score約為0.84）均優於其他方法，生成的獨特提示數量最多可達100倍（例如，Ministral-8B-Instruct-2410的10,418個提示對比100個）。在HarmBench數據集上對十二個LLMs（十個開源，兩個閉源）與九種最先進方法的對比中，RainbowPlus的平均ASR達到81.1%，超過AutoDAN-Turbo 3.9%，且速度快了9倍（1.45小時對比13.50小時）。我們的開源實現促進了LLM安全的進一步發展，提供了一個可擴展的漏洞評估工具。代碼和資源公開於https://github.com/knoveleng/rainbowplus，支持LLM紅隊測試的可重現性和未來研究。

PROMPTEVALS：一個用於客製化生產大型語言模型管線的斷言與防護機制資料集
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

Apr 20, 2025

Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran

大型語言模型（LLMs）正日益被部署於跨多領域的專業生產數據處理管道中，例如金融、行銷和電子商務。然而，當在生產環境中對大量輸入運行這些模型時，它們往往無法遵循指令或滿足開發者的期望。為了提高這些應用中的可靠性，建立針對LLM輸出的斷言或防護機制以與管道並行運行至關重要。然而，確定能捕捉開發者對任務需求的適當斷言集合是一項挑戰。在本論文中，我們介紹了PROMPTEVALS，這是一個包含2087個LLM管道提示及12623條相應斷言標準的數據集，這些數據來自使用我們開源LLM管道工具的開發者。該數據集比之前的集合大5倍。利用PROMPTEVALS的保留測試集作為基準，我們評估了閉源和開源模型在生成相關斷言方面的表現。值得注意的是，我們微調後的Mistral和Llama 3模型平均比GPT-4o高出20.93%，不僅降低了延遲，還提升了性能。我們相信，我們的數據集能夠激發更多關於LLM可靠性、對齊和提示工程的研究。

RF-DETR目標檢測與YOLOv12之比較：基於Transformer與CNN架構在複雜果園環境下針對單類別及多類別綠果檢測於標籤模糊性之研究
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

Apr 17, 2025

Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee

本研究針對RF-DETR物件偵測基礎模型與YOLOv12物件偵測模型配置，在標籤模糊、遮擋及背景混雜的複雜果園環境中進行綠色果實偵測的詳細比較。研究開發了一個包含單類別（綠色果實）和多類別（遮擋與非遮擋綠色果實）註解的自訂資料集，以評估模型在動態真實世界條件下的表現。RF-DETR物件偵測模型採用DINOv2骨幹和可變形注意力機制，在全局上下文建模方面表現卓越，能有效識別部分遮擋或模糊的綠色果實。相比之下，YOLOv12利用基於CNN的注意力機制增強局部特徵提取，優化了計算效率，適合邊緣部署。RF-DETR在單類別偵測中達到了最高的平均精度（mAP50）0.9464，證明了其在雜亂場景中定位綠色果實的優越能力。儘管YOLOv12N在mAP@50:95上取得了0.7620的最高分，RF-DETR在複雜空間場景中始終表現更佳。在多類別偵測中，RF-DETR以mAP@50 0.8298領先，顯示其區分遮擋與非遮擋果實的能力，而YOLOv12L在mAP@50:95上以0.6622得分最高，表明其在詳細遮擋情境下的分類更佳。訓練動態分析顯示，RF-DETR收斂迅速，特別是在單類別設定中，僅需10個epoch即達到穩定，展示了基於Transformer架構在適應動態視覺資料上的效率。這些發現驗證了RF-DETR在精準農業應用中的有效性，而YOLOv12則適合快速反應場景。>關鍵詞：RF-DETR物件偵測，YOLOv12，YOLOv13，YOLOv14，YOLOv15，YOLOE，YOLO World，YOLO，You Only Look Once，Roboflow，偵測Transformer，CNN

LoftUp：學習基於座標的特徵上採樣器用於視覺基礎模型
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

Apr 18, 2025

Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang

如DINOv2和CLIP等視覺基礎模型（VFMs）在多種下游任務中取得了令人矚目的成果，但其有限的特徵解析度在需要像素級理解的應用中表現受限。特徵上採樣為解決這一挑戰提供了一個有前景的方向。在本研究中，我們確定了增強特徵上採樣的兩個關鍵因素：上採樣器架構和訓練目標。針對上採樣器架構，我們引入了一種基於座標的交叉注意力Transformer，它將高解析度圖像與座標及低解析度VFM特徵相結合，以生成清晰、高品質的特徵。對於訓練目標，我們提出利用類別無關掩碼和自蒸餾來構建高解析度偽地面真值特徵。我們的方法有效地捕捉了細粒度細節，並能靈活適應各種輸入和特徵解析度。通過實驗，我們證明我們的方法在多種下游任務中顯著優於現有的特徵上採樣技術。我們的代碼已發佈於https://github.com/andrehuang/loftup。

CoMotion：多人同步三維動作捕捉
CoMotion: Concurrent Multi-person 3D Motion

Apr 16, 2025

Alejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun

我們提出了一種方法，用於從單一單目相機流中檢測並追蹤多人的精細三維姿態。我們的系統在充滿困難姿態和遮擋的擁擠場景中，能夠保持時間上連貫的預測。我們的模型不僅執行強大的逐幀檢測，還通過學習的姿態更新來逐幀追蹤人物。與跨時間匹配檢測不同，姿態直接從新的輸入圖像中更新，這使得在遮擋情況下也能進行線上追蹤。我們利用偽標註在多個圖像和視頻數據集上進行訓練，生成了一個在三維姿態估計準確度上與最先進系統相匹配的模型，同時在多人物追蹤方面更快且更準確。代碼和權重可在https://github.com/apple/ml-comotion獲取。

擲骰子並三思而後行：突破下一個詞預測的創造力界限
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Apr 21, 2025

Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan

我們設計了一套最小化的算法任務，這些任務是對開放式現實世界任務的鬆散抽象。這使我們能夠清晰且可控地量化當今語言模型的創造力極限。與需要創造性、遠見性思維躍遷的現實世界任務類似，我們的任務需要一個隱含的、開放式的隨機規劃步驟，該步驟要麼（a）在抽象的知識圖譜中發現新的聯繫（如文字遊戲、類比推理或研究），要麼（b）構建新的模式（如設計數學問題或新蛋白質）。在這些任務中，我們從經驗和概念上論證了下一詞學習的短視性及其過度記憶的傾向；相比之下，多詞方法，即無教師訓練和擴散模型，在生成多樣且原創的輸出方面表現出色。其次，在我們的任務中，我們發現要在不損害連貫性的前提下從Transformer中激發隨機性，最好在輸入層直接注入噪聲（通過我們稱之為哈希條件化的方法），而非依賴於輸出層的溫度採樣。因此，我們的工作為分析開放式創造技能提供了一個原則性的最小化測試平台，並為超越下一詞學習和基於softmax的採樣提供了新的論據。我們在https://github.com/chenwu98/algorithmic-creativity上公開了部分代碼。

SilVar-Med：一種基於語音驅動的可視化語言模型，用於醫學影像中的可解釋異常檢測
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

Apr 14, 2025

Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy

醫療視覺語言模型在各種醫療應用中展現了巨大潛力，包括醫學影像描述和診斷輔助。然而，現有模型大多依賴於基於文本的指令，這限制了它們在實際臨床環境中的可用性，尤其是在手術等場景中，基於文本的互動對醫生而言往往不切實際。此外，當前的醫學影像分析模型通常缺乏對其預測背後全面推理的展示，這降低了它們在臨床決策中的可靠性。考慮到醫療診斷錯誤可能帶來改變人生的後果，開發可解釋且理性的醫療輔助工具顯得尤為重要。為應對這些挑戰，我們引入了一種端到端的語音驅動醫療視覺語言模型——SilVar-Med，這是一個多模態醫學影像助手，它將語音互動與視覺語言模型相結合，開創了基於語音的醫學影像分析任務。同時，我們專注於對每項醫學異常預測背後推理的解釋，並提出了一個推理數據集。通過大量實驗，我們展示了結合端到端語音互動的推理驅動醫學影像解釋的概念驗證研究。我們相信，這項工作將推動醫療AI領域的發展，促進更加透明、互動且臨床可行的診斷支持系統的建立。我們的代碼和數據集已在SiVar-Med上公開。

AI研究論文每日精選

每日精選AI研究論文及翻譯

在離策略指導下學習推理
Learning to Reason under Off-Policy Guidance

Apr 21, 2025

Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang

856

Eagle 2.5：提升前沿视觉-语言模型的长上下文后训练能力
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Apr 21, 2025

655

FlowReasoner：強化查詢層級元代理
FlowReasoner: Reinforcing Query-Level Meta-Agents

Apr 21, 2025

Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang

462

ToolRL：獎勵即為工具學習之所需
ToolRL: Reward is All Tool Learning Needs

Apr 16, 2025

Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji

442

OTC：基於強化學習的最優工具調用
OTC: Optimal Tool Calls via Reinforcement Learning

Apr 21, 2025

Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji

332

X-Teaming：基於自適應多代理的多輪越獄與防禦
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Apr 15, 2025

Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel

312

UFO2：桌面代理操作系统
UFO2: The Desktop AgentOS

Apr 20, 2025

283

SphereDiff：基於球形潛在表徵的免調參全向全景圖像與視頻生成
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

Apr 19, 2025

Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo

282

THOUGHTTERMINATOR：推理模型中的過度思考之基準測試、校準與緩解
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models

Apr 17, 2025

Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang

242

StyleMe3D：基於多重編碼器與解耦先驗的三維高斯風格化
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

Apr 21, 2025

Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li

232

從另一視角審視：評估多模態大語言模型中的多視角理解能力
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Apr 21, 2025

Chun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma

232

EasyEdit2：一個易於使用的導向框架，用於編輯大型語言模型
EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

Apr 21, 2025

Ziwen Xu, Shuxun Wang, Kewei Xu, Haoming Xu, Mengru Wang, Xinle Deng, Yunzhi Yao, Guozhou Zheng, Huajun Chen, Ningyu Zhang

222

Uni3C：統一精確的3D增強相機與人體運動控制以實現視頻生成
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation

Apr 21, 2025

Chenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu

212

LeetCodeDataset：一個用於穩健評估與高效訓練程式碼大型語言模型的時序資料集
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

Apr 20, 2025

Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu

192

InfiGUI-R1：將多模態GUI代理從被動執行者推進為深思熟慮的推理者
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Apr 19, 2025

Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu

132

LearnAct：具備統一示範基準的少樣本移動端GUI代理
LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark

Apr 18, 2025

Guangyi Liu, Pengxiang Zhao, Liang Liu, Zhiming Chen, Yuxiang Chai, Shuai Ren, Hao Wang, Shibo He, Wenchao Meng

122

DRAGON：分佈式獎勵優化擴散生成模型
DRAGON: Distributional Rewards Optimize Diffusion Generative Models

Apr 21, 2025

Yatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan

112

NEMOTRON-CROSSTHINK：將自我學習能力擴展至數學推理之外
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning

Apr 15, 2025

Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

114