ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

MiMo-VL技術報告
MiMo-VL Technical Report

Jun 4
ByXiaomi LLM-Core Team, Zihao Yue, Zhenru Lin, Yifan Song, Weikun Wang, Shuhuai Ren, Shuhao Gu, Shicheng Li, Peidian Li, Liang Zhao, Lei Li, Kainan Bao, Hao Tian, Hailin Zhang, Gang Wang, Dawei Zhu, Cici, Chenhong He, Bowen Ye, Bowen Shen, Zihan Zhang, Zihan Jiang, Zhixian Zheng, Zhichao Song, Zhenbo Luo, Yue Yu, Yudong Wang, Yuanyuan Tian, Yu Tu, Yihan Yan, Yi Huang, Xu Wang, Xinzhe Xu, Xingchen Song, Xing Zhang, Xing Yong, Xin Zhang, Xiangwei Deng, Wenyu Yang, Wenhan Ma, Weiwei Lv, Weiji Zhuang, Wei Liu, Sirui Deng, Shuo Liu, Shimao Chen, Shihua Yu, Shaohui Liu, Shande Wang, Rui Ma, Qiantong Wang, Peng Wang, Nuo Chen, Menghang Zhu, Kangyang Zhou, Kang Zhou, Kai Fang, Jun Shi, Jinhao Dong, Jiebao Xiao, Jiaming Xu, Huaqiu Liu, Hongshen Xu, Heng Qu, Haochen Zhao, Hanglong Lv, Guoan Wang, Duo Zhang, Dong Zhang, Di Zhang, Chong Ma, Chang Liu, Can Cai, Bingquan Xia
80
2

我們開源了MiMo-VL-7B-SFT和MiMo-VL-7B-RL,這兩款強大的視覺語言模型在通用視覺理解和多模態推理方面均展現了頂尖性能。MiMo-VL-7B-RL在40項評估任務中的35項上超越了Qwen2.5-VL-7B,並在OlympiadBench上取得了59.4分,超越了參數高達78B的模型。在GUI基礎應用方面,它以56.1分在OSWorld-G上設立了新標準,甚至超越了如UI-TARS等專用模型。我們的訓練結合了四階段預訓練(2.4萬億標記)與混合在線強化學習(MORL),整合了多樣化的獎勵信號。我們發現,在預訓練階段融入高質量推理數據及長鏈思維的重要性,以及混合RL在同步多領域優化挑戰中的益處。此外,我們貢獻了一個涵蓋50多項任務的全面評估套件,以促進可重複性並推動該領域的發展。模型檢查點及完整評估套件可在https://github.com/XiaomiMiMo/MiMo-VL獲取。

2

推進多模態推理:從優化冷啟動到分階段強化學習
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

Jun 4
ByShuang Chen, Yue Guo, Zhaochen Su, Yafu Li, Yulun Wu, Jiacheng Chen, Jiayu Chen, Weijie Wang, Xiaoye Qu, Yu Cheng
48
4

受到Deepseek-R1在复杂文本任务中卓越推理能力的启发,许多研究尝试通过直接应用强化学习(RL)来激励多模态大语言模型(MLLMs)具备类似的能力。然而,这些方法在激活复杂推理方面仍面临困难。本文并未孤立地考察多模态RL,而是深入探究了当前的训练流程,并识别出三个关键现象:1)有效的冷启动初始化对于提升MLLM推理能力至关重要。有趣的是,我们发现仅使用精心挑选的文本数据进行初始化,其性能即可超越许多近期的多模态推理模型,甚至在引入多模态RL之前。2)应用于多模态RL的标准GRPO遭遇梯度停滞问题,这降低了训练的稳定性和性能。3)在多模态RL阶段之后,进行仅文本的RL训练,能够进一步强化多模态推理能力。这种分阶段的训练方法有效地平衡了感知基础与认知推理的发展。通过整合上述洞见并解决多模态RL中的问题,我们推出了ReVisual-R1,在包括MathVerse、MathVision、WeMath、LogicVista、DynaMath以及极具挑战性的AIME2024和AIME2025等基准测试中,实现了开源7B MLLMs的新一代顶尖水平。

3

開放思維:推理模型的數據配方
OpenThoughts: Data Recipes for Reasoning Models

Jun 4
ByEtash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt
48
2

推理模型在涉及數學、編程和科學的許多基準測試中取得了快速進展。然而,關於最佳訓練方法仍存在許多未解之謎,因為最先進的模型通常依賴於幾乎沒有公開信息的專有數據集。為解決這一問題,OpenThoughts項目的目標是創建用於訓練推理模型的開源數據集。經過初步探索,我們的OpenThoughts2-1M數據集催生了OpenThinker2-32B,這是首個基於公開推理數據訓練的模型,在AIME和LiveCodeBench等標準推理基準測試中與DeepSeek-R1-Distill-32B表現相當。隨後,我們通過系統性地研究數據生成管道的每個步驟,進行了1000多項對照實驗,進一步改進了數據集,從而推出了OpenThoughts3。將管道擴展至120萬個樣本並使用QwQ-32B作為教師模型,我們得到了OpenThinker3-7B模型,該模型取得了最先進的成果:在AIME 2025上達到53%,在LiveCodeBench 06/24-01/25上達到51%,在GPQA Diamond上達到54%。我們所有的數據集和模型均可通過https://openthoughts.ai獲取。

4

AmbiK:廚房環境中的模糊任務數據集
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

Jun 4
ByAnastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
47
2

作為具身智能體的一部分,大型語言模型(LLMs)通常用於根據用戶的自然語言指令進行行為規劃。然而,在現實環境中處理模糊指令仍然是LLMs面臨的一大挑戰。目前已有各種任務模糊性檢測方法被提出,但由於這些方法在不同數據集上進行測試,且缺乏統一的基準,因此難以進行比較。為此,我們提出了AmbiK(廚房環境中的模糊任務),這是一個完全基於文本的數據集,專門針對廚房環境中機器人接收到的模糊指令。AmbiK在LLMs的協助下收集並經過人工驗證,包含1000對模糊任務及其明確對應任務,按模糊類型(人類偏好、常識知識、安全性)分類,並附有環境描述、澄清問題與答案、用戶意圖和任務計劃,總計2000個任務。我們希望AmbiK能幫助研究人員對模糊性檢測方法進行統一比較。AmbiK數據集可在https://github.com/cog-model/AmbiK-dataset 獲取。

5

SuperWriter:基於大型語言模型的反思驅動長文生成
SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models

Jun 4
ByYuhao Wu, Yushi Bai, Zhiqiang Hu, Juanzi Li, Roy Ka-Wei Lee
33
2

長文本生成對於大型語言模型(LLMs)而言仍是一大挑戰,尤其是在保持連貫性、確保邏輯一致性以及隨著序列長度增加而維持文本質量方面。為解決這些限制,我們提出了SuperWriter-Agent,這是一個基於代理的框架,旨在提升長文本生成的質量和一致性。SuperWriter-Agent在生成流程中引入了明確的結構化思維,通過規劃和精煉階段,引導模型遵循更為深思熟慮且認知基礎的過程,類似於專業作家的寫作方式。基於此框架,我們構建了一個監督微調數據集,用於訓練一個7B的SuperWriter-LM。我們進一步開發了一種分層的直接偏好優化(DPO)程序,該程序利用蒙特卡洛樹搜索(MCTS)來傳播最終質量評估,並相應地優化每個生成步驟。多樣化基準測試的實證結果表明,SuperWriter-LM在自動評估和人工評估中均達到了最先進的性能,甚至超越了更大規模的基線模型。此外,全面的消融研究證明了分層DPO的有效性,並強調了引入結構化思維步驟對於提升長文本生成質量的價值。

6

長上下文語言模型的可控性檢驗
A Controllable Examination for Long-Context Language Models

Jun 3
ByYijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
33
2

現有評估長上下文語言模型(LCLM)的框架大致可分為現實世界任務和合成任務兩類。儘管這兩種方法都具有實用性,但它們各自伴隨著一些固有的侷限性。現實世界任務過於複雜,難以解釋或表徵,且易受數據污染的影響。相比之下,合成任務通常採用“大海撈針”(NIAH)的形式,其中“針”與“乾草堆”之間缺乏連貫性,這削弱了它們作為現實應用代理的有效性。針對這些挑戰,我們認為理想的長上下文評估框架應具備三個基本特徵:無縫上下文、可控設置和健全評估。本研究引入了LongBioBench,這是一個新穎的基準測試,它利用人工生成的傳記作為受控環境,從理解、推理和可信度三個維度評估LCLM。我們的實驗評估共涵蓋了18個LCLM,結果表明,大多數模型在語義理解和對檢索結果的基本推理方面仍存在不足,且隨著上下文長度的增加,其可信度降低。進一步分析顯示,現有合成基準測試採用的某些設計選擇,如上下文不連貫、數字針以及缺乏干擾項,使得它們在測試模型長上下文能力時存在漏洞。此外,我們還發現,長上下文持續預訓練主要通過調整RoPE嵌入來適應延長的上下文長度。總而言之,與之前的合成基準測試相比,LongBioBench在模擬真實語言任務與保持可控性之間實現了更好的平衡,且具有高度的可解釋性和可配置性。

7

MMR-V:未言之處為何?影片多模態深度推理的基準測試
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

Jun 4
ByKejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
29
2

影片的序列結構對多模態大型語言模型(MLLMs)定位多幀證據並進行多模態推理的能力提出了挑戰。然而,現有的影片基準測試主要集中於理解任務,這些任務僅要求模型匹配問題中提到的幀(以下簡稱「問題幀」)並感知少量相鄰幀。為填補這一空白,我們提出了MMR-V:影片多模態深度推理基準測試。該基準測試具有以下特點:(1) 長距離、多幀推理:模型需要推斷和分析可能遠離問題幀的證據幀。(2) 超越感知:問題無法僅通過直接感知來回答,而是需要對隱藏信息進行推理。(3) 可靠性:所有任務均經過人工註釋,參考了大量現實世界用戶的理解,以符合普遍認知。(4) 混淆性:精心設計的干擾項註釋策略,以減少模型的捷徑。MMR-V包含317部影片和1,257個任務。我們的實驗顯示,當前模型在多模態推理方面仍存在困難;即使表現最佳的模型o4-mini,其準確率也僅為52.5%。此外,當前的推理增強策略(思維鏈和擴展測試時計算)帶來的增益有限。進一步分析表明,多模態推理所需的思維鏈與文本推理中的思維鏈有所不同,這部分解釋了性能增益有限的原因。我們希望MMR-V能激發更多關於增強多模態推理能力的研究。

8

Voyager:面向可探索3D場景生成的長距離與世界一致性視頻擴散模型
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation

Jun 4
ByTianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo
28
2

在現實世界的應用中,如視頻遊戲和虛擬現實,通常需要能夠建模3D場景,讓用戶能夠沿著自定義的相機軌跡進行探索。儘管在從文本或圖像生成3D物體方面取得了顯著進展,但創建長距離、3D一致且可探索的3D場景仍然是一個複雜且具有挑戰性的問題。在本研究中,我們提出了Voyager,這是一種新穎的視頻擴散框架,能夠從單一圖像生成世界一致的3D點雲序列,並根據用戶定義的相機路徑進行生成。與現有方法不同,Voyager實現了端到端的場景生成與重建,具有跨幀的內在一致性,消除了對3D重建流程(如結構從運動或多視圖立體)的需求。我們的方法整合了三個關鍵組件:1)世界一致的視頻擴散:一個統一的架構,聯合生成對齊的RGB和深度視頻序列,基於現有的世界觀測來確保全局一致性;2)長距離世界探索:一個高效的世界緩存,帶有點雲剔除和自動回歸推理,通過平滑的視頻採樣進行迭代場景擴展,保持上下文感知的一致性;3)可擴展的數據引擎:一個視頻重建流程,自動化相機姿態估計和度量深度預測,適用於任意視頻,實現大規模、多樣化的訓練數據收集,無需手動3D註釋。這些設計共同帶來了視覺質量和幾何精確度上的明顯提升,具有廣泛的應用前景。

9

透過捷徑神經元分析建立可信賴的大型語言模型評估
Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

Jun 4
ByKejian Zhu, Shangqing Tu, Zhuoran Jin, Lei Hou, Juanzi Li, Jun Zhao
27
2

大型語言模型(LLMs)的發展依賴於可信的評估。然而,目前大多數評估依賴於公開基準測試,這些基準測試容易受到數據污染問題的影響,從而嚴重損害公平性。先前的研究主要集中在構建動態基準測試以解決污染問題。然而,持續構建新的基準測試既成本高昂又具有循環性。在本研究中,我們旨在通過分析受污染模型本身的機制來解決污染問題。通過實驗,我們發現受污染模型的高估可能是由於參數在訓練中獲得了捷徑解決方案。我們進一步提出了一種通過比較和因果分析來識別捷徑神經元的新方法。基於此,我們引入了一種稱為捷徑神經元修補的評估方法,以抑制捷徑神經元。實驗驗證了我們的方法在減輕污染方面的有效性。此外,我們的評估結果與最近發布的可信基準測試MixEval表現出強烈的線性相關性,Spearman係數(rho)超過0.95。這種高度相關性表明,我們的方法能夠密切揭示模型的真實能力,並且是可信的。我們進行了進一步的實驗,以證明我們的方法在各種基準測試和超參數設置中的普遍適用性。代碼:https://github.com/GaryStack/Trustworthy-Evaluation

10

VisCoder:針對可執行Python視覺化程式碼生成的LLM微調
VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation

Jun 4
ByYuansheng Ni, Ping Nie, Kai Zou, Xiang Yue, Wenhu Chen
26
2

大型語言模型(LLMs)在處理視覺化任務時,如繪製圖表和圖形,往往面臨挑戰,這些任務的成功既取決於代碼的正確性,也依賴於視覺語義。現有的指令微調數據集缺乏基於執行的監督,並且對迭代代碼修正的支持有限,導致生成的圖表脆弱且不可靠。我們提出了VisCode-200K,這是一個大規模的指令微調數據集,專為基於Python的視覺化和自我修正而設計。該數據集包含超過20萬個示例,來源於兩個方面:(1) 來自開源倉庫的經過驗證的繪圖代碼,配對自然語言指令和渲染的圖表;(2) 來自Code-Feedback的45K多輪修正對話,使模型能夠利用運行時反饋來修正錯誤代碼。我們在VisCode-200K上微調Qwen2.5-Coder-Instruct,創建了VisCoder,並在PandasPlotBench上進行評估。VisCoder顯著超越了強大的開源基線模型,並接近了如GPT-4o-mini等專有模型的性能。我們進一步採用自我調試評估協議來評估迭代修復,展示了反饋驅動學習在生成可執行且視覺準確的代碼方面的優勢。

11

以擴散模型實現圖像編輯的程式化方法
Image Editing As Programs with Diffusion Models

Jun 4
ByYujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
24
2

尽管扩散模型在文本到图像生成方面取得了显著成功,但在指令驱动的图像编辑任务中却面临重大挑战。我们的研究揭示了一个关键问题:这些模型在处理涉及大幅布局变化的结构性不一致编辑时尤为困难。为了弥补这一不足,我们提出了“图像编辑即程序”(Image Editing As Programs, IEAP),这是一个基于扩散变换器(Diffusion Transformer, DiT)架构的统一图像编辑框架。IEAP的核心在于通过还原论的视角处理指令编辑,将复杂的编辑指令分解为一系列原子操作的序列。每个操作通过共享相同DiT主干的轻量级适配器实现,并专门针对特定类型的编辑进行优化。这些操作由基于视觉语言模型(Vision-Language Model, VLM)的代理进行编程,协同支持任意且结构性不一致的变换。通过这种模块化和序列化的编辑方式,IEAP在从简单调整到重大结构变化的各种编辑任务中展现出强大的泛化能力。大量实验表明,IEAP在多种编辑场景下的标准基准测试中显著优于现有最先进的方法。在这些评估中,我们的框架尤其在处理复杂、多步骤指令时,展现出卓越的准确性和语义保真度。代码已发布于https://github.com/YujiaHu1109/IEAP。

12

IllumiCraft:統一幾何與光照擴散的可控影片生成
IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation

Jun 3
ByYuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang
21
3

儘管基於擴散模型的技術能夠從文本或圖像輸入生成高質量、高分辨率的視頻序列,但在控制場景光照和跨幀視覺外觀時,這些模型缺乏對幾何線索的明確整合。為解決這一限制,我們提出了IllumiCraft,這是一個端到端的擴散框架,接受三種互補輸入:(1) 高動態範圍(HDR)視頻映射,用於精細的光照控制;(2) 合成重光照幀,帶有隨機化的光照變化(可選地配以靜態背景參考圖像),以提供外觀線索;以及(3) 捕捉精確三維幾何信息的三維點軌跡。通過在統一的擴散架構中整合光照、外觀和幾何線索,IllumiCraft生成與用戶定義提示對齊的時間一致性視頻。它支持基於背景和文本條件的視頻重光照,並提供了比現有可控視頻生成方法更高的保真度。項目頁面:https://yuanze-lin.me/IllumiCraft_page

13

小型語言模型將成為代理式人工智慧的未來
Small Language Models are the Future of Agentic AI

Jun 2
ByPeter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov
20
2

大型語言模型(LLMs)常因其在多種任務上展現出接近人類的表現而受到讚譽,並因其能夠進行一般性對話而備受重視。然而,隨著代理型人工智慧系統的興起,語言模型在這些系統中主要執行少量專門任務,且重複性高、變化性低,這類應用正大量湧現。 在此,我們提出一個觀點:小型語言模型(SLMs)在許多代理系統的調用中已足夠強大,本質上更為適合,且必然更具經濟效益,因此它們將是代理型人工智慧的未來。我們的論點基於當前SLMs展現的能力水平、代理系統的常見架構,以及語言模型部署的經濟性。我們進一步主張,在通用對話能力至關重要的情境下,異構代理系統(即調用多種不同模型的代理)是自然的選擇。我們探討了SLMs在代理系統中採用的潛在障礙,並概述了一個通用的LLM到SLM代理轉換算法。 我們以價值陳述的形式表達這一立場,強調即使從LLMs部分轉向SLMs,也將對人工智慧代理產業的運營和經濟產生重大影響。我們旨在激發關於有效利用人工智慧資源的討論,並希望推動降低當今人工智慧成本的努力。我們呼籲對我們的立場提出貢獻與批評,並承諾將所有相關通信發表於https://research.nvidia.com/labs/lpr/slm-agents。

14

TalkingMachines:基於自回歸擴散模型的實時音頻驅動FaceTime風格視頻生成
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

Jun 3
ByChetwin Low, Weimin Wang
19
4

在本論文中,我們介紹了TalkingMachines——一個高效的框架,將預訓練的視頻生成模型轉化為實時、音頻驅動的角色動畫生成器。TalkingMachines通過將音頻大型語言模型(LLM)與我們的視頻生成基礎模型相結合,實現了自然的對話體驗。我們的主要貢獻包括:(1)我們將一個預訓練的SOTA圖像到視頻DiT模型改造成為一個擁有180億參數的音頻驅動虛擬形象生成模型;(2)通過從雙向教師模型到稀疏因果自迴歸學生模型的不對稱知識蒸餾,我們實現了無錯誤累積的無限視頻流;(3)我們設計了一個高吞吐量、低延遲的推理管道,整合了多項關鍵工程優化,例如:(a)將DiT和VAE解碼器分佈在不同設備上,(b)利用CUDA流高效重疊設備間通信與計算,(c)消除冗餘重計算以最大化幀生成吞吐量。請參見演示視頻——https://aaxwaz.github.io/TalkingMachines/。

15

通過單一問題的批判性微調釋放預訓練大語言模型的推理潛能
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

Jun 3
ByYubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
17
2

我們觀察到,如Qwen-Math、MiMo和Phi-4等強大的大型語言模型(LLMs)在預訓練階段便已繼承了巨大的推理潛能。通過強化學習(RL),這些模型在推理任務上的表現能顯著提升。近期研究表明,即使僅針對單一問題進行RL訓練,也能釋放這些模型的推理能力。然而,RL不僅成本高昂,且穩定性欠佳。即使是一次性的RL訓練,也需要耗費數百個GPU小時。這引發了一個關鍵問題:是否存在更高效的方法來釋放這些強大基礎LLMs的推理潛能?在本研究中,我們證明了僅需對單一問題進行批判性微調(Critique Fine-Tuning, CFT),即可有效釋放LLMs的推理潛能。我們的方法通過收集模型針對單一問題生成的多樣化解決方案,並利用教師LLMs提供詳細批判,來構建批判數據。我們對參數量從1.5B到14B不等的Qwen和Llama系列模型進行CFT數據微調,並在多樣化的推理任務上觀察到顯著的性能提升。例如,僅需5個GPU小時的訓練,Qwen-Math-7B-CFT在六個數學基準測試上平均提升了15%,在三個邏輯推理基準測試上提升了16%。這些結果與RL相比,在計算量減少20倍的情況下,表現相當甚至更優。消融研究揭示了一次性CFT在不同提示問題下的穩健性。這些結果凸顯了一次性CFT作為一種簡單、通用且計算高效的途徑,能夠有效釋放現代LLMs的推理能力。

16

SVGenius:大型語言模型在SVG理解、編輯與生成能力上的基準測試
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation

Jun 3
BySiqi Chen, Xinyu Dong, Haolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang
17
2

大型语言模型(LLMs)及多模态LLMs在SVG处理方面展现出显著潜力,然而现有基准测试存在现实场景覆盖不足、复杂度分层缺失及评估范式碎片化等问题。为此,我们推出了SVGenius,一个包含2,377个查询的综合性基准,涵盖理解、编辑与生成三个递进维度。基于来自24个应用领域的真实数据,并采用系统化的复杂度分层构建,SVGenius通过8个任务类别和18项指标对模型进行评估。我们对22个主流模型进行了全面考察,这些模型跨越不同规模、架构、训练范式及开放程度。分析结果表明,尽管专有模型显著优于开源模型,但所有模型均随复杂度提升而呈现系统性性能下降,揭示了当前方法的基础性局限;然而,增强推理训练相较于单纯规模扩展,在克服这些局限上更为有效,尽管风格迁移仍是所有模型类型中最具挑战性的能力。SVGenius为SVG处理建立了首个系统化评估框架,为开发更强大的矢量图形模型及推动自动化图形设计应用提供了关键洞见。附录及补充材料(包含所有数据与代码)可访问https://zju-real.github.io/SVGenius获取。

17

Ψ-採樣器:基於順序蒙特卡羅的推理時間獎勵對齊在評分模型中的初始粒子採樣
Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

Jun 2
ByTaehoon Yoon, Yunhong Min, Kyeongmin Yeo, Minhyuk Sung
16
2

我們介紹了Psi-Sampler,這是一個基於SMC(序列蒙特卡羅)的框架,結合了基於pCNL(預條件克蘭克-尼科爾森朗之萬)的初始粒子採樣,旨在實現與基於分數的生成模型在推理時的有效獎勵對齊。隨著從預訓練到後訓練優化的廣泛範式轉變,基於分數的生成模型在推理時的獎勵對齊最近獲得了顯著的關注。這一趨勢的核心是將序列蒙特卡羅(SMC)應用於去噪過程。然而,現有方法通常從高斯先驗初始化粒子,這無法充分捕捉與獎勵相關的區域,導致採樣效率降低。我們證明,從獎勵感知的後驗分佈初始化粒子能顯著提升對齊性能。為了在高維潛在空間中實現後驗採樣,我們引入了預條件克蘭克-尼科爾森朗之萬(pCNL)算法,該算法結合了維度魯棒的提議與梯度引導的動態。這種方法實現了高效且可擴展的後驗採樣,並在各種獎勵對齊任務中持續提升性能,包括佈局到圖像生成、數量感知生成和審美偏好生成,正如我們實驗中所展示的那樣。

18

LayerFlow:層級感知影片生成的統一模型
LayerFlow: A Unified Model for Layer-aware Video Generation

Jun 4
BySihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
13
2

我們提出了LayerFlow,這是一個針對層級感知視頻生成的統一解決方案。基於每層的提示,LayerFlow能夠生成透明前景、乾淨背景以及混合場景的視頻。它還支持多種變體,如分解混合視頻或根據給定前景生成背景,反之亦然。從一個文本到視頻的擴散變換器出發,我們將不同層級的視頻組織為子片段,並利用層級嵌入來區分每個片段及其對應的層級提示。通過這種方式,我們在一個統一框架內無縫支持上述變體。針對缺乏高質量層級訓練視頻的問題,我們設計了一個多階段訓練策略,以適應具有高質量層級註釋的靜態圖像。具體來說,我們首先使用低質量視頻數據訓練模型。然後,我們調整一個運動LoRA,使模型能夠兼容靜態幀。隨後,我們在混合了高質量分層圖像與複製粘貼視頻數據的圖像數據上訓練內容LoRA。在推理過程中,我們移除運動LoRA,從而生成具有所需層級的流暢視頻。

19

DenseDPO:面向视频扩散模型的细粒度时序偏好优化
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models

Jun 4
ByZiyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
13
2

直接偏好优化(Direct Preference Optimization, DPO)最近被应用为文本到视频扩散模型的后训练技术。为了获取训练数据,标注者被要求对从独立噪声生成的两个视频提供偏好。然而,这种方法限制了细粒度比较,我们指出它会使标注者偏向于低运动片段,因为这些片段通常包含较少的视觉伪影。在本研究中,我们提出了DenseDPO,该方法通过三项贡献解决了这些不足。首先,我们通过去噪真实视频的损坏副本来创建每对DPO视频。这产生了具有相似运动结构但在局部细节上有所不同的对齐视频对,有效中和了运动偏差。其次,我们利用由此产生的时间对齐,在短片段而非整个片段上标注偏好,从而产生更密集且更精确的学习信号。仅使用三分之一标注数据,DenseDPO在运动生成方面显著优于原始DPO,同时在文本对齐、视觉质量和时间一致性方面与之相当。最后,我们展示了DenseDPO能够利用现成的视觉语言模型(Vision Language Models, VLMs)实现自动偏好标注:GPT准确预测了与任务特定微调的视频奖励模型相似的片段级偏好,而基于这些标签训练的DenseDPO在性能上接近使用人类标签的效果。

20

TimeHC-RL:時序感知的層次化認知強化學習 ——提升大型語言模型的社交智能
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence

May 30
ByGuiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu
12
3

近年來,大型語言模型(LLMs)在需要深思熟慮的智商相關領域,如數學和編程,取得了顯著進展。然而,從訓練後的角度提升LLMs在社交領域的認知發展,仍是一個未被充分探索的課題。考慮到社交世界遵循獨特的時間線,並需要比主要依賴系統2認知(謹慎、逐步推理)的數學更豐富的認知模式混合(從直覺反應(系統1)和表層思維到深思熟慮(系統2)),我們引入了時間感知分層認知強化學習(TimeHC-RL)來增強LLMs的社交智能。在實驗中,我們系統地探索了提升LLMs社交智能的方法,並通過五種其他訓練後範式和兩種測試時干預範式,在八個具有多樣數據模式的數據集上驗證了TimeHC-RL方法的有效性。實驗結果顯示,我們提出的TimeHC-RL方法相較於廣泛採用的系統2強化學習方法具有顯著優勢。它為7B基礎模型插上了翅膀,使其能夠與DeepSeek-R1和OpenAI-O3等先進模型的性能相媲美。此外,從訓練後和測試時干預的角度系統探索提升LLMs社交智能的過程中,我們還發現了若干有價值的洞見。

21

修正稀疏注意力
Rectified Sparse Attention

Jun 4
ByYutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu Wei
10
2

高效生成长序列是大型語言模型面臨的關鍵挑戰。雖然近期的稀疏解碼方法提升了效率,但它們存在KV快取對齊問題,其中近似誤差會累積並降低生成質量。在本研究中,我們提出了校正稀疏注意力(ReSA),這是一種簡單而有效的方法,它將塊稀疏注意力與周期性密集校正相結合。通過在固定間隔使用密集前向傳播來刷新KV快取,ReSA限制了誤差累積並保持了與預訓練分佈的對齊。在數學推理、語言建模和檢索任務上的實驗表明,ReSA在顯著提升效率的同時,實現了近乎無損的生成質量。值得注意的是,在256K序列長度的解碼下,ReSA實現了最高2.42倍的端到端加速,使其成為可擴展長上下文推理的實用解決方案。代碼可在https://aka.ms/ReSA-LM獲取。

22

奧拉克:一個用於訓練與評估LLM代理在多樣化視頻遊戲中的基礎基準
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

Jun 4
ByDongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
9
2

大型语言模型(LLM)代理正在重塑游戏产业,尤其是通过打造更为智能且符合人类偏好的游戏角色。然而,现有的游戏基准测试未能满足实际需求:它们缺乏对不同游戏类型中LLM多样能力的评估、对复杂游戏玩法至关重要的代理模块研究,以及将预训练LLM对齐为游戏代理的微调数据集。为填补这些空白,我们提出了\benchname{},一个旨在跨多样现实世界视频游戏中训练和评估LLM代理的基础基准。与现有基准不同,Orak囊括了涵盖所有主要游戏类型的12款热门视频游戏,使得对LLM能力及复杂游戏场景中不可或缺的代理模块进行全面研究成为可能。为了支持LLM的一致性评估,我们引入了一个基于模型上下文协议(MCP)的即插即用接口,使LLM能够无缝连接游戏并操控代理模块。此外,我们提出了一个微调数据集,包含跨多种游戏类型的LLM游戏轨迹。Orak提供了一个全面的评估框架,包括通用游戏得分排行榜、LLM竞技场,以及对视觉输入状态、代理策略及微调效果的深入分析,为构建通用游戏代理奠定了基础。代码可在https://github.com/krafton-ai/Orak获取。

23

CapSpeech:賦能風格化字幕文本轉語音的下游應用
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

Jun 3
ByHelin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
8
3

近期,生成式人工智慧的進步顯著改變了風格標註文字轉語音合成(CapTTS)領域。然而,由於缺乏標準化、全面的數據集以及基於CapTTS的下游任務研究有限,將CapTTS應用於實際場景仍面臨挑戰。為填補這些空白,我們推出了CapSpeech,這是一個專為一系列CapTTS相關任務設計的新基準,包括帶有聲音事件的風格標註文字轉語音合成(CapTTS-SE)、口音標註TTS(AccCapTTS)、情感標註TTS(EmoCapTTS)以及聊天代理的文字轉語音合成(AgentTTS)。CapSpeech包含超過1000萬對機器標註的音頻-標註對和近36萬對人工標註的音頻-標註對。此外,我們還引入了兩個由專業配音演員和經驗豐富的音頻工程師收集和錄製的新數據集,專門用於AgentTTS和CapTTS-SE任務。伴隨這些數據集,我們在CapSpeech上使用自回歸和非自回歸模型進行了全面的實驗。我們的結果展示了在多樣化說話風格下高保真度和高清晰度的語音合成。據我們所知,CapSpeech是目前最大的提供CapTTS相關任務全面標註的數據集。這些實驗和發現進一步為開發CapTTS系統的挑戰提供了寶貴的見解。

24

超越表象:測量大語言模型判斷中的自我偏好
Beyond the Surface: Measuring Self-Preference in LLM Judgments

Jun 3
ByZhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
8
2

近期研究表明,大型語言模型(LLMs)在擔任評判者時表現出自我偏好偏差,即它們傾向於偏愛自身生成的回答,而非其他模型產生的回應。現有方法通常通過計算評判模型對自身回答與其他模型回答所賦予分數的差異來衡量此偏差。然而,這種方法將自我偏好偏差與回答質量混為一談,因為評判模型生成的高質量回答也可能導致正分差,即便不存在偏差。為解決這一問題,我們引入黃金評判作為回答實際質量的代理,並提出DBG分數,該分數通過計算評判模型對自身回答與相應黃金評判所賦分數的差異來衡量自我偏好偏差。由於黃金評判反映了回答的真實質量,DBG分數減少了回答質量對偏差測量的混淆效應。利用DBG分數,我們進行了全面實驗,以評估不同版本、規模及推理能力的LLMs中的自我偏好偏差。此外,我們探討了影響並有助於減輕自我偏好偏差的兩個因素:回答文本風格及評判模型的後訓練數據。最後,我們從基於注意力的角度探討了自我偏好偏差的潛在機制。我們的代碼與數據可在https://github.com/zhiyuanc2001/self-preference獲取。

25

BenchHub:一個統一且可自訂的LLM全方位評估基準套件
BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

May 31
ByEunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
8
2

隨著大型語言模型(LLMs)的不斷進步,對最新且組織良好的基準測試的需求變得日益關鍵。然而,許多現有的數據集分散且難以管理,儘管在數學或代碼等領域中,特定領域模型的重要性日益增加,但這些數據集仍使得針對特定需求或領域進行評估變得具有挑戰性。在本文中,我們介紹了BenchHub,這是一個動態的基準測試存儲庫,旨在使研究人員和開發者能夠更有效地評估LLMs。BenchHub匯總並自動分類來自不同領域的基準測試數據集,整合了38個基準測試中的303K個問題。它設計用於支持持續更新和可擴展的數據管理,從而實現針對各種領域或使用案例的靈活且可定制的評估。通過對各種LLM家族進行廣泛實驗,我們展示了模型在特定領域子集上的表現存在顯著差異,這強調了領域感知基準測試的重要性。我們相信,BenchHub可以促進更好的數據集重用、更透明的模型比較以及更容易識別現有基準測試中代表性不足的領域,為推進LLM評估研究提供關鍵基礎設施。

26

DiffDecompose:基於擴散變換器的Alpha合成圖像逐層分解
DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers

May 24
ByZitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song
7
2

擴散模型近期在許多生成任務中取得了巨大成功,例如物體移除。然而,現有的圖像分解方法由於依賴於遮罩先驗、靜態物體假設以及數據集的缺乏,難以解開半透明或透明層的遮擋問題。本文深入探討了一個新任務:Alpha合成圖像的逐層分解,旨在從單一重疊圖像中恢復出構成層,條件是半透明/透明Alpha層的非線性遮擋。為應對層模糊性、泛化性和數據稀缺性等挑戰,我們首先引入了AlphaBlend,這是首個大規模高質量的透明和半透明層分解數據集,支持六個現實世界子任務(例如,半透明光斑移除、半透明細胞分解、玻璃器皿分解)。基於此數據集,我們提出了DiffDecompose,這是一個基於擴散Transformer的框架,它學習了在輸入圖像、語義提示和混合類型條件下可能層分解的後驗分佈。DiffDecompose不直接回歸Alpha遮罩,而是執行上下文分解,使模型能夠在無需逐層監督的情況下預測一個或多個層,並引入了層位置編碼克隆以保持跨層的像素級對應關係。在提出的AlphaBlend數據集和公開的LOGO數據集上進行的大量實驗驗證了DiffDecompose的有效性。代碼和數據集將在論文接受後公開。我們的代碼將在以下網址提供:https://github.com/Wangzt1121/DiffDecompose。

27

POSS:位置專家生成更佳草稿以進行推測解碼
POSS: Position Specialist Generates Better Draft for Speculative Decoding

Jun 4
ByLanglin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang
6
2

推測解碼技術通過使用小型草稿模型預測多個標記,並由大型目標模型並行驗證這些標記,從而加速大型語言模型(LLM)的推理過程。近期研究利用目標模型的隱藏狀態來提升草稿模型的預測準確性。然而,現有方法因草稿模型生成特徵中的錯誤累積,導致後續位置草稿標記預測質量下降。本文提出位置專家(PosS),由多個專注於特定位置(或多個位置)的草稿層組成,用於生成指定位置的標記。位置專家大幅提高了每輪草稿生成中後續位置的標記接受率,因為每個專家只需專注於處理特定程度的草稿模型特徵偏差。在Llama-3-8B-Instruct和Llama-2-13B-chat模型上,針對六個數據集的實驗結果表明,PosS在平均接受長度和加速比方面均有效超越了基線方法。我們的代碼庫已公開於https://github.com/shrango/PosS。

28

Video-Skill-CoT:基於技能的思維鏈用於領域自適應的視頻推理
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning

Jun 4
ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
6
2

近期在思維鏈(Chain-of-Thought, CoT)推理方面的進展提升了複雜視頻理解的能力,但現有方法往往難以適應跨多種視頻內容的領域特定技能(如事件檢測、空間關係理解、情感理解)。為解決這一問題,我們提出了Video-Skill-CoT(簡稱Video-SKoT),這是一個自動構建並利用技能感知的CoT監督來實現領域適應性視頻推理的框架。首先,我們構建基於技能的CoT註釋:從訓練問題中提取與領域相關的推理技能,將其聚類為共享的技能分類體系,並為每個視頻-問題對創建詳細的多步驟CoT推理過程以供訓練。其次,我們引入了一種技能專家的學習框架。每個專家模塊專注於一部分推理技能,並通過輕量級適配器使用收集到的CoT監督進行訓練。我們在三個視頻理解基準測試中展示了所提出方法的有效性,Video-SKoT在這些測試中始終優於強基線模型。此外,我們還對比了不同CoT註釋流程及在多個視頻領域中學習到的技能,提供了深入的分析。

29

跨領域的穩健性:CLIP 需要一個穩健的文本編碼器
Robustness in Both Domains: CLIP Needs a Robust Text Encoder

Jun 3
ByElias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
6
2

對抗性輸入攻擊可能導致CLIP嵌入發生顯著偏移。這會影響到在流程中整合CLIP的模型的下游魯棒性,例如文本到圖像生成模型或大型視覺語言模型。雖然已有一些努力致力於提升CLIP圖像編碼器的魯棒性,但文本編碼器的魯棒性仍未被探索。在本研究中,我們填補了這一文獻空白。我們提出了LEAF:一種針對文本領域的高效對抗性微調方法,能夠擴展至大型CLIP模型。我們的模型顯著提升了文本領域的零樣本對抗準確率,同時保持了由魯棒圖像編碼器提供的視覺性能。當與文本到圖像擴散模型結合時,我們能夠在對抗性噪聲下提升生成質量。在多模態檢索任務中使用我們魯棒的CLIP編碼器時,我們在對抗性噪聲下的召回率優於標準CLIP模型。最後,我們展示了魯棒的文本編碼器通過直接優化,能夠更好地從其嵌入重建輸入文本。

30

Critique-GRPO:透過自然語言與數值反饋提升大型語言模型的推理能力
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

Jun 3
ByXiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
6
2

近期,基於數值反饋(如標量獎勵)的強化學習(RL)技術取得了顯著進展,大幅提升了大型語言模型(LLMs)的複雜推理能力。儘管如此,我們發現僅依賴數值反饋的RL面臨三大關鍵挑戰:性能瓶頸、自我反思的有限效果以及持續性失敗。我們進一步證明,即便在性能達到瓶頸後,通過利用自然語言形式的批評反饋,RL微調模型仍能在持續失敗的問題上生成正確的改進方案。基於這一洞察,我們提出了Critique-GRPO,這是一個在線RL框架,它整合了自然語言與數值反饋,以實現有效的策略優化。Critique-GRPO使LLMs能夠在保持探索的同時,從初始響應和批評引導的改進中同步學習。利用Qwen2.5-7B-Base和Qwen3-8B-Base模型進行的廣泛實驗表明,Critique-GRPO在八項具有挑戰性的數學、STEM及通用推理任務中,持續超越基於監督學習和RL的微調方法,平均pass@1分數分別提升了約4.5%和5%。值得注意的是,Critique-GRPO甚至超越了在線RL中融入專家示範的強基線。深入分析揭示了關於策略探索的兩個重要見解:(1)更高的熵並不一定保證探索學習的效率,(2)更長的響應未必帶來更有效的探索。

31

通過信心引導的數據增強改善未知協變量偏移下的知識蒸餾
Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation

Jun 2
ByNiclas Popp, Kevin Alexander Laube, Matthias Hein, Lukas Schott
6
2

在廣泛數據集上訓練的大型基礎模型展現出跨領域的強大零樣本能力。為了在數據和模型規模受限的情況下複製其成功,知識蒸餾已成為將基礎模型知識轉移至小型學生網絡的成熟工具。然而,蒸餾的有效性嚴重受限於可用的訓練數據。本研究針對知識蒸餾中常見的協變量偏移問題,即訓練時出現但在測試時不存在的虛假特徵,提出解決方案。我們探討的問題是:當這些虛假特徵未知,但存在一個穩健的教師模型時,學生模型是否也能對這些特徵變得穩健?我們通過引入一種新穎的基於擴散的數據增強策略來解決這一問題,該策略通過最大化教師與學生之間的分歧來生成圖像,從而創造出學生模型難以應對的挑戰性樣本。實驗結果表明,在CelebA和SpuCo Birds數據集上,我們的方法顯著提升了最差組和平均組的準確率,以及在虛假ImageNet數據集上協變量偏移下的虛假mAUC,超越了基於擴散的最先進數據增強基線方法。

32

適應於持續學習之前
Adapt before Continual Learning

Jun 4
ByAojun Lu, Tao Feng, Hangjie Yuan, Chunhui Ding, Yanan Sun
5
2

持續學習(Continual Learning, CL)旨在使神經網絡能夠逐步獲取新知識(可塑性),同時保留現有知識(穩定性)。儘管預訓練模型(Pre-trained Models, PTMs)在CL中已成為關鍵,但主流方法為了保持穩定性而凍結PTM骨幹,這限制了其可塑性,尤其是在增量任務中遇到顯著領域差距時。相反,若順序微調整個PTM,則可能導致可泛化知識的災難性遺忘,暴露出一個關鍵的穩定性與可塑性之間的權衡問題。為應對這一挑戰,我們提出了在核心CL過程之前進行PTM適應(Adapting PTMs before the core CL process, ACL),這是一種新穎的框架,在利用現有CL方法(例如提示調優)學習每個新任務之前,通過即插即用的適應階段來精煉PTM骨幹。ACL通過將嵌入與其原始類別原型對齊,同時遠離其他類別,從而增強了可塑性,理論和實驗均表明這能平衡穩定性與可塑性。大量實驗證明,ACL顯著提升了跨基準和集成方法的CL性能,為基於PTM的CL提供了一種多功能的解決方案。

33

量化大型語言模型評判
Quantitative LLM Judges

Jun 3
ByAishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton
5
2

LLM-as-a-judge 是一個框架,其中大型語言模型(LLM)自動評估另一個 LLM 的輸出。我們提出了定量 LLM 評判者,這些評判者使用回歸模型將現有 LLM 評判者的評估分數與特定領域中的人類評分對齊。這些模型通過使用評判者的文本評估和分數來訓練,以提高原始評判者的分數。我們展示了四種定量評判者,適用於不同類型的絕對和相對反饋,這展示了我們框架的通用性和多功能性。與監督微調相比,我們的框架在計算上更為高效,並且在人類反饋有限的情況下(這在我們的大多數應用中是預期的)可以更具統計效率。我們在四個數據集上使用兩個基礎評判者對這些主張進行了實證驗證。我們的實驗表明,定量評判者可以通過事後建模有效提升現有評判者的預測能力。

34

循流而動:基於神經符號代理的細粒度流程圖歸因
Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents

Jun 2
ByManan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Vivek Gupta, Dinesh Manocha
5
2

流程圖是視覺化決策過程的關鍵工具。然而,其非線性結構及複雜的視覺-文本關係,使得利用大型語言模型(LLMs)進行解讀時面臨挑戰,因為視覺-語言模型在分析這些圖表時,常會產生不存在的連接與決策路徑的幻覺。這導致在物流、健康及工程等關鍵領域中,自動化流程圖處理的可靠性受到影響。我們引入了細粒度流程圖歸因任務,該任務追蹤特定組件以支撐流程圖所參考的LLM回應。流程圖歸因確保了LLM預測的可驗證性,並通過將生成的回應與流程圖結構相連結,提升了可解釋性。我們提出了FlowPathAgent,這是一種神經符號代理,它通過基於圖的推理執行細粒度的事後歸因。該代理首先對流程圖進行分割,然後將其轉換為結構化的符號圖,接著採用代理方法動態地與圖進行互動,以生成歸因路徑。此外,我們還提出了FlowExplainBench,這是一個新穎的基準,用於評估跨多種風格、領域及問題類型的流程圖歸因。實驗結果顯示,FlowPathAgent在流程圖問答中減少了LLM回答中的視覺幻覺,在我們提出的FlowExplainBench數據集上,相較於強基線模型,其性能提升了10-14%。

35

HTSC-2025:常壓高溫超導體基準數據集——面向人工智能驅動的臨界溫度預測
HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction

Jun 4
ByXiao-Qi Han, Ze-Feng Gao, Xin-De Wang, Zhenfeng Ouyang, Peng-Jie Guo, Zhong-Yi Lu
4
2

高温超導材料的發現對人類工業與日常生活具有重大意義。近年來,利用人工智慧(AI)預測超導轉變溫度的研究日益受到關注,多數此類工具聲稱能達到顯著的準確性。然而,該領域缺乏廣為接受的基準數據集,嚴重阻礙了不同AI算法之間的公平比較,並妨礙了這些方法的進一步發展。在本研究中,我們提出了HTSC-2025,這是一個常壓高溫超導基準數據集。該數據集全面彙編了理論物理學家基於BCS超導理論在2023年至2025年間發現的理論預測超導材料,包括著名的X_2YH_6系統、鈣鈦礦MXH_3系統、M_3XH_8系統、由LaH_{10}結構演化而來的籠狀BCN摻雜金屬原子系統,以及由MgB_2演化而來的二維蜂窩結構系統。HTSC-2025基準已於https://github.com/xqh19970407/HTSC-2025開源,並將持續更新。此基準對於加速基於AI方法的超導材料發現具有重要意義。

36

RefEdit:基於指代表達的指令式圖像編輯模型改進基準與方法
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions

Jun 3
ByBimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
4
2

儘管在反轉和基於指令的圖像編輯方面取得了最新進展,現有方法主要擅長於編輯單一、顯著的物體,但在應用於包含多個實體的複雜場景時卻顯著受限。為量化這一差距,我們首先引入了RefEdit-Bench,這是一個基於RefCOCO的嚴格現實世界基準測試,即使是在數百萬樣本上訓練的基線模型也表現不佳。為克服這一限制,我們提出了RefEdit——一種基於指令的編輯模型,該模型在我們可擴展的合成數據生成管道上進行訓練。我們的RefEdit僅在20,000個編輯三元組上訓練,便超越了基於Flux/SD3模型、在數百萬數據上訓練的基線模型。跨多個基準測試的廣泛評估表明,我們的模型不僅在指代表達任務中表現出色,還提升了在傳統基準測試上的性能,達到了與閉源方法相當的頂尖水平。我們公佈了數據和檢查點以確保可重現性。

37

DLP:大型語言模型中的動態分層剪枝
DLP: Dynamic Layerwise Pruning in Large Language Models

May 27
ByYuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
4
2

剪枝技术近期被广泛采用,以减少大型语言模型(LLMs)的参数规模并提升其推理效率。主流的剪枝技术常依赖于统一的层级剪枝策略,这在较高稀疏度下可能导致性能显著下降。鉴于LLMs中不同层级的贡献度各异,近期研究已转向非均匀层级剪枝。然而,这些方法往往基于预设值,可能导致性能未达最优。为克服这些局限,我们提出了一种名为动态层级剪枝(DLP)的新方法。该方法通过整合模型权重与输入激活信息,自适应地确定每一层的相对重要性,并据此分配剪枝率。实验结果显示,DLP在多种LLMs上均能有效保持高稀疏度下的模型性能。具体而言,在70%的稀疏度下,与现有最先进方法相比,DLP将LLaMA2-7B的困惑度降低了7.79,平均准确率提升了2.7%。此外,DLP兼容多种现有的LLM压缩技术,并能无缝融入参数高效微调(PEFT)流程。我们已在https://github.com/ironartisan/DLP发布代码,以促进未来研究。

38

释放小时级视频训练潜力,助力长视频语言理解
Unleashing Hour-Scale Video Training for Long Video-Language Understanding

Jun 5
ByJingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
3
1

近期,长视频-语言理解基准推动了视频大型多模态模型(Video-LMMs)的发展。然而,高质量标注的长视频资源匮乏,导致针对时长长达一小时的视频大语言模型(Video-LLMs)的训练研究尚不充分。为填补这一空白,我们推出了VideoMarathon,一个大规模的长视频指令跟随数据集。该数据集包含约9,700小时的长视频,视频时长从3分钟到60分钟不等,涵盖多个领域。具体而言,VideoMarathon包含了330万对高质量问答对,覆盖六个基本主题:时间性、空间性、物体、动作、场景和事件。与现有视频指令数据集相比,VideoMarathon显著将训练视频时长扩展至1小时,并支持22项需要短期与长期视频理解能力的多样化任务。基于VideoMarathon,我们提出了Hour-LLaVA,一个强大且高效的视频-语言模型,适用于小时级别的视频-语言建模。通过引入记忆增强模块,Hour-LLaVA能够以每秒1帧的采样率进行长达一小时的视频训练与推理,该模块自适应地整合了用户问题相关及时空信息丰富的语义,这些语义源自缓存的完整视频上下文。实验结果表明,Hour-LLaVA在多个长视频-语言基准测试中均取得了最佳性能,充分验证了VideoMarathon数据集的高质量及Hour-LLaVA模型的优越性。

39

TRiSM 面向代理式 AI:基於大語言模型的代理式多智能體系統中 信任、風險與安全管理的綜述
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems

Jun 4
ByShaina Raza, Ranjan Sapkota, Manoj Karkee, Christos Emmanouilidis
3
2

基於大型語言模型(LLMs)構建並部署於多代理配置中的自主AI系統,正在重新定義企業和社會領域中的智能自主性、協作與決策。本綜述針對基於LLM的自主多代理系統(AMAS)中的信任、風險與安全管理(TRiSM)進行了結構化分析。我們首先探討了自主AI的概念基礎,其與傳統AI代理的架構差異,以及支持可擴展、工具使用自主性的新興系統設計。隨後,通過治理、可解釋性、模型運維(ModelOps)及隱私/安全四大支柱,詳細闡述了自主AI框架中的TRiSM,並將其置於自主LLMs的背景下進行了情境化分析。我們識別了獨特的威脅向量,並引入了一套全面的風險分類體系,輔以案例研究展示了現實世界中的脆弱性。此外,本文還調查了分佈式LLM代理系統中的信任建立機制、透明度與監督技術,以及最先進的可解釋性策略。同時,回顧了評估信任、可解釋性及以人為本性能的指標,並探討了開放基準測試的挑戰。通過加密、對抗防禦及遵守不斷演進的AI法規,本文還探討了安全與隱私問題。最後,本文提出了一條負責任自主AI的發展路線圖,建議了研究方向,以確保新興多代理系統與堅實的TRiSM原則相契合,實現安全、可問責且透明的部署。

40

分段策略優化:大型語言模型強化學習中的有效分段級別信用分配
Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

May 29
ByYiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu
3
2

提升大型語言模型的推理能力,利用強化學習(RL)仍是一項關鍵挑戰。現有方法主要採用兩種對比的優勢估計粒度:詞元級方法(如PPO)旨在提供細粒度的優勢信號,但由於訓練精確的評論模型困難,導致估計不準確。另一方面,軌跡級方法(如GRPO)僅依賴於最終獎勵的粗粒度優勢信號,導致信用分配不精確。為解決這些限制,我們提出了分段策略優化(SPO),這是一種新穎的RL框架,利用中級粒度的分段級優勢估計,實現了比軌跡級方法更精確的信用分配,並比詞元級方法需要更少的估計點,從而基於蒙特卡洛(MC)實現無需評論模型的精確優勢估計。SPO包含三個具有新策略的組件:(1)靈活的分段劃分;(2)精確的分段優勢估計;(3)使用分段優勢的策略優化,包括新穎的概率掩碼策略。我們進一步為兩種特定場景實例化SPO:(1)SPO-chain用於短鏈式推理(CoT),具有基於切點的分劃和基於鏈的優勢估計,在GSM8K上比PPO和GRPO提高了6-12個百分點的準確率。(2)SPO-tree用於長CoT,具有基於樹的優勢估計,顯著降低了MC估計的成本,在MATH500的2K和4K上下文評估中比GRPO提高了7-11個百分點。我們將代碼公開於https://github.com/AIFrameResearch/SPO。

41

Rex-Thinker:基於思維鏈推理的實體參照定位
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning

Jun 4
ByQing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
2
2

物件指稱旨在檢測圖像中所有與給定自然語言描述相匹配的物件。我們主張,一個強健的物件指稱模型應具備基礎性,即其預測應具備可解釋性並忠實於視覺內容。具體而言,它應滿足兩個關鍵特性:1)可驗證性,通過生成可解釋的推理來證明其預測,並將其明確地與視覺證據相聯繫;2)可信賴性,通過學習在圖像中無物件滿足給定表達時選擇棄權。然而,大多數方法將指稱視為直接的邊界框預測任務,提供有限的解釋性,並難以拒絕無匹配物件的表達。在本研究中,我們提出了Rex-Thinker模型,該模型將物件指稱表述為一個明確的CoT推理任務。給定一個指稱表達,我們首先識別出所有與被指稱物件類別相對應的候選物件實例。Rex-Thinker隨後對每個候選物件進行逐步推理,評估其是否與給定表達相匹配,然後做出最終預測。為支持這一範式,我們在HumanRef數據集上通過提示GPT-4o構建了一個大規模的CoT風格指稱數據集,名為HumanRef-CoT。每個推理軌跡遵循結構化的規劃、行動和總結格式,使模型能夠學習對候選物件的分解式、可解釋的推理。我們隨後分兩個階段訓練Rex-Thinker:首先進行冷啟動的監督微調階段,以教會模型如何執行結構化推理;接著進行基於GRPO的強化學習,以提高準確性和泛化能力。實驗表明,我們的方法在域內評估中無論在精確度還是解釋性上均優於標準基線,同時在拒絕虛構輸出和域外設置中的強泛化能力方面也展現出改進。

42

從架構角度重新思考持續學習中的穩定性-可塑性權衡
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective

Jun 4
ByAojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
2
2

持續學習(Continual Learning, CL)的研究旨在賦予神經網絡逐步學習與適應的能力。這一追求的核心在於解決穩定性與可塑性之間的兩難困境,即如何在保留已學知識與獲取新知識之間取得平衡。儘管眾多CL方法致力於實現這一權衡,但它們往往忽視了網絡架構對穩定性與可塑性的影響,將權衡僅限於參數層面。本文深入探討了在架構層面上穩定性與可塑性之間的衝突。我們揭示,在相同參數約束下,更深的網絡展現出更好的可塑性,而更寬的網絡則具有更優的穩定性。為應對這一架構層面的難題,我們提出了一種名為Dual-Arch的新框架,作為CL的插件組件。該框架利用兩個獨立且互補的網絡的優勢:一個專注於可塑性,另一個則專注於穩定性。每個網絡都設計有專門且輕量化的架構,以適應其各自的目標。大量實驗表明,Dual-Arch不僅提升了現有CL方法的性能,而且在參數量上最多可縮減87%。

43

CRAWLDoc:一個用於書目文件穩健排序的數據集
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents

Jun 4
ByFabian Karl, Ansgar Scherp
2
2

出版物數據庫依賴於從多樣化的網絡來源中精確提取元數據,然而網頁佈局和數據格式的差異給元數據提供者帶來了挑戰。本文介紹了CRAWLDoc,一種用於鏈接網頁文檔上下文排序的新方法。從出版物的URL(如數字對象識別符)出發,CRAWLDoc檢索登陸頁面及所有鏈接的網絡資源,包括PDF文件、ORCID個人資料和補充材料。它將這些資源連同錨文本和URL嵌入到一個統一的表示中。為評估CRAWLDoc,我們創建了一個新的、手動標註的數據集,包含來自計算機科學領域六家頂級出版商的600篇出版物。我們的方法CRAWLDoc展示了跨出版商和數據格式的相關文檔的穩健且獨立於佈局的排序能力。它為從具有各種佈局和格式的網頁文檔中改進元數據提取奠定了基礎。我們的源代碼和數據集可在https://github.com/FKarl/CRAWLDoc訪問。

44

視覺語言模型能夠聚合分散的訓練片段
VLMs Can Aggregate Scattered Training Patches

Jun 4
ByZhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu
2
2

降低視覺語言模型(VLMs)風險的一種方法是從其訓練數據中移除危險樣本。然而,當有害圖像被分割成看似無害的小塊並分散在多個訓練樣本中時,這種數據審核很容易被繞過。VLMs在訓練過程中可能會學會將這些片段拼湊起來,並在推理時從完整圖像或文本參考中生成有害回應。例如,如果模型在訓練時接觸到來自血腥場景的圖像塊,並配以“安全”的描述,VLMs之後可能會將完整圖像或對該場景的文本參考描述為“安全”。我們將VLMs促成此攻擊的核心能力定義為視覺拼接——即整合分散在多個共享相同文本描述的訓練樣本中的視覺信息的能力。在本研究中,我們首先在三種數據集上展示了常見開源VLMs的視覺拼接能力,其中每張圖像都標記了唯一的合成ID:我們將每對(圖像,ID)分割成不同粒度的{(圖塊,ID)}對進行微調,發現調整後的模型能夠從完整圖像或文本參考中正確表達出ID。基於此,我們模擬了上述對抗性數據投毒場景,使用來自危險圖像的圖塊並將ID替換為“安全”或“不安全”等文本描述,展示了有害內容如何通過圖塊規避審核,並隨後通過視覺拼接被重建,從而對VLM的安全性構成嚴重威脅。代碼可在https://github.com/ZHZisZZ/visual-stitching獲取。

45

在野外環境中利用非對稱雙重3D高斯潑濺實現穩健神經渲染
Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting

Jun 4
ByChengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu
2
2

從野外圖像進行3D重建仍然是一項具有挑戰性的任務,這主要歸因於不一致的照明條件和瞬態干擾物。現有方法通常依賴於啟發式策略來處理低質量的訓練數據,這些策略往往難以產生穩定且一致的重建結果,經常導致視覺偽影。在本研究中,我們提出了非對稱雙3DGS(Asymmetric Dual 3DGS),這是一種新穎的框架,它利用了這些偽影的隨機性特點:由於微小的隨機性,它們在不同的訓練運行中往往會有所不同。具體而言,我們的方法並行訓練兩個3D高斯潑濺(3DGS)模型,並施加一致性約束,以促進在可靠場景幾何上的收斂,同時抑制不一致的偽影。為了防止兩個模型由於確認偏誤而陷入相似的失敗模式,我們引入了一種分離掩碼策略,該策略應用兩種互補的掩碼:多線索自適應掩碼和自監督軟掩碼,這導致了兩個模型的非對稱訓練過程,減少了共享的錯誤模式。此外,為了提高模型訓練的效率,我們引入了一種輕量級變體,稱為動態EMA代理(Dynamic EMA Proxy),它用動態更新的指數移動平均(EMA)代理替換了兩個模型中的一個,並採用交替掩碼策略來保持分離。在具有挑戰性的真實世界數據集上的廣泛實驗表明,我們的方法在實現高效率的同時,始終優於現有方法。代碼和訓練好的模型將會發布。

46

利用FLAIR解決反問題
Solving Inverse Problems with FLAIR

Jun 3
ByJulius Erbach, Dominik Narnhofer, Andreas Dombos, Bernt Schiele, Jan Eric Lenssen, Konrad Schindler
2
2

基於流模型的潛在生成模型,如Stable Diffusion 3,能夠生成質量卓越的圖像,甚至實現了逼真的文本到圖像生成。其令人印象深刻的性能表明,這些模型也應構成逆成像問題的強大先驗,但該方法尚未達到可比擬的保真度。存在幾個關鍵障礙:(i) 編碼到低維潛在空間使得基礎(正向)映射非線性;(ii) 數據似然項通常難以處理;以及(iii) 學習到的生成模型在推理過程中難以恢復罕見的、非典型的數據模式。我們提出了FLAIR,一種新穎的無訓練變分框架,利用基於流的生成模型作為逆問題的先驗。為此,我們引入了一種與退化類型無關的流匹配變分目標,並將其與確定性軌跡調整相結合,以恢復非典型模式。為了確保與觀測數據的完全一致性,我們將數據保真度和正則化項的優化分離。此外,我們引入了一種時間依賴的校準方案,其中正則化的強度根據離線精度估計進行調節。在標準成像基準上的結果表明,FLAIR在重建質量和樣本多樣性方面始終優於現有的基於擴散和流的方法。

47

FinChain:一個可驗證的鏈式思維金融推理的符號化基準
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning

Jun 3
ByZhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
2
2

多步驟符號推理對於提升金融任務的下游表現至關重要。然而,目前缺乏系統評估此能力的基準。現有的數據集如FinQA和ConvFinQA僅監督最終的數值答案,而未評估中間的推理步驟。為解決這一問題,我們引入了FinChain,這是首個專為可驗證的思維鏈(Chain-of-Thought, CoT)金融推理設計的符號基準。FinChain涵蓋12個金融領域的54個主題,每個主題提供五個參數化模板,這些模板在推理複雜度和所需領域專業知識上各有不同。每個數據集實例都包含一個可執行的Python追蹤,使得能夠自動生成大量訓練數據,並易於適應其他領域。我們還引入了ChainEval,這是一種新的自動評估指標,用於評估最終答案和中間推理。在我們的數據集上對30個大型語言模型進行基準測試後,我們發現即使是最先進的模型在多步驟金融推理方面仍有很大的改進空間。FinChain的所有模板和評估指標均可通過https://github.com/mbzuai-nlp/finchain獲取。

48

探物之声:基于交互式物体感知的图像至音频生成
Sounding that Object: Interactive Object-Aware Image to Audio Generation

Jun 4
ByTingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
1
2

在複雜的視聽場景中生成精確的聲音是一項挑戰,尤其是在存在多個物體和聲源的情況下。本文提出了一種基於用戶選擇圖像中視覺物體的互動式物體感知音頻生成模型。我們的方法將物體中心學習整合到條件潛在擴散模型中,該模型通過多模態注意力學習將圖像區域與其對應的聲音關聯起來。在測試時,我們的模型利用圖像分割技術,允許用戶在物體層面上互動式地生成聲音。我們從理論上驗證了我們的注意力機制在功能上近似於測試時的分割掩碼,確保生成的音頻與選定的物體保持一致。定量和定性評估表明,我們的模型優於基線方法,實現了物體與其相關聲音之間更好的對齊。項目頁面:https://tinglok.netlify.app/files/avobject/

49

主動學習超參數綜述:來自大規模實驗網格的洞見
Survey of Active Learning Hyperparameters: Insights from a Large-Scale Experimental Grid

Jun 4
ByJulius Gonsior, Tim Rieß, Anja Reusch, Claudio Hartmann, Maik Thiele, Wolfgang Lehner
1
2

數據標註是一項耗時且成本高昂的任務,但這卻是監督式機器學習中不可或缺的環節。主動學習(Active Learning, AL)作為一種成熟的方法,通過迭代選擇最具信息量的未標註樣本供專家進行標註,從而最大限度地減少人工標註的工作量,並提升整體分類性能。儘管AL已存在數十年,但在實際應用中仍鮮見其身影。根據在NLP社群中進行的兩次關於AL的網絡調查顯示,阻礙實踐者使用AL的主要原因有二:一是AL設置的複雜性,二是對其有效性的信任不足。我們假設這兩大原因背後存在同一個根源:AL龐大的超參數空間。這一大多未被探索的超參數空間,往往導致誤導性且不可重現的AL實驗結果。在本研究中,我們首先構建了一個包含超過460萬種超參數組合的大型網格,其次記錄了迄今為止最大規模AL研究中所有組合的表現,最後分析了各超參數對實驗結果的影響。最終,我們針對每個超參數的影響給出了建議,展示了具體AL策略實現的驚人影響力,並勾勒出一種以最小計算成本實現可重現AL實驗的研究設計,從而為未來更可重現且值得信賴的AL研究做出貢獻。

50

RiOSWorld:多模态计算机使用代理的风险基准测试
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents

May 31
ByJingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
1
2

隨著多模態大型語言模型(MLLMs)的快速發展,它們正越來越多地被部署為能夠完成複雜計算機任務的自主計算機使用代理。然而,一個迫切的問題隨之而來:為對話場景設計並對齊的通用MLLM安全風險原則,能否有效轉移到現實世界的計算機使用場景中?現有針對基於MLLM的計算機使用代理安全風險評估的研究存在若干侷限:要麼缺乏真實的交互環境,要麼狹隘地聚焦於一種或幾種特定風險類型。這些侷限忽視了現實環境的複雜性、多變性與多樣性,從而限制了對計算機使用代理的全面風險評估。為此,我們引入了RiOSWorld,這是一個旨在評估基於MLLM的代理在現實世界計算機操作中潛在風險的基準測試。我們的基準涵蓋了492個涉及各類計算機應用的風險任務,包括網絡、社交媒體、多媒體、操作系統、電子郵件及辦公軟件等。我們根據風險來源將這些風險分為兩大類:(i) 用戶引發的風險和(ii) 環境風險。在評估方面,我們從兩個角度審視安全風險:(i) 風險目標意圖和(ii) 風險目標完成度。在RiOSWorld上對多模態代理進行的大量實驗表明,當前的計算機使用代理在現實場景中面臨著顯著的安全風險。我們的研究結果強調了在現實世界計算機操作中對計算機使用代理進行安全對齊的必要性和緊迫性,為開發可信賴的計算機使用代理提供了寶貴的見解。我們的基準測試已公開於https://yjyddq.github.io/RiOSWorld.github.io/。

Jun 4
Jun 5
Jun 6