HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

22 papers found

遞歸多智能體系統
Recursive Multi-Agent Systems

Apr 28

ByXiyuan Yang, Jiaru Zou, Rui Pan, Ruizhong Qiu, Pan Lu, Shizhe Diao, Jindong Jiang, Hanghang Tong, Tong Zhang, Markus J. Buehler, Jingrui He, James Zou

123

近期，遞歸式或循環語言模型通過對潛在狀態進行迭代式模型計算以深化推理，已成為新的規模化拓展軸向。我們將此規模化原則從單一模型擴展至多智能體系統，並提出關鍵問題：智能體協作本身能否通過遞歸實現規模化？為此，我們提出RecursiveMAS——一個將整個系統視為統一潛在空間遞歸計算的遞歸多智能體框架。該框架通過輕量級RecursiveLink模塊將異構智能體連接為協作循環，實現分佈內潛在思維生成與跨智能體潛在狀態傳輸。為優化框架，我們開發了內外雙環學習算法，通過遞歸輪次間的基於梯度的共享信用分配，實現迭代式全系統協同優化。對運行時間複雜度與學習動態的理論分析表明，RecursiveMAS較標準基於文本的多智能體系統更具效率，並能在遞歸訓練中保持梯度穩定性。實證研究中，我們在4種代表性智能體協作模式下實例化RecursiveMAS，並在涵蓋數學、科學、醫學、搜索及代碼生成的9個基準測試中進行評估。相較先進的單一/多智能體及遞歸計算基線，RecursiveMAS持續實現8.3%的平均準確率提升，同時帶來1.2倍至2.4倍的端到端推理加速，以及34.6%-75.6%的標記使用量削減。代碼與數據已發佈於https://recursivemas.github.io。

數據驅動編程：基於原始語料庫實現自我改進大型語言模型的測試驅動數據工程
Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Apr 27

ByChenkai Pan, Xinglong Xu, Yuhang Xu, Yujun Wu, Siyuan Li, Jintao Chen, Conghui He, Jingxuan Wei, Cheng Tan

將專業人類知識從文本可靠地遷移至大型語言模型，仍是人工智慧領域的根本性挑戰。基於領域語料庫的微調雖能顯著提升模型能力，但該過程缺乏回饋機制：當模型在領域任務中失敗時，無法診斷訓練資料的缺陷所在，唯一手段只能盲目增加資料量。本文提出，當從源語料庫提取的結構化知識表徵作為訓練資料與評估的共同基礎時，完整的資料工程生命週期可精確對應至軟體開發生命週期：訓練資料成為規定模型應學內容的原始碼，模型訓練相當於編譯過程，基準測試如同單元測試，而基於失敗案例的資料修復則類比於除錯。在此對應框架下，模型失敗可分解為概念層面的缺失與推理鏈斷裂，並能追溯至資料的具體缺陷，透過定向修補進行修復。每個修復週期皆能在不同模型規模與架構下實現持續改進，且不損害通用能力。我們將此原則形式化為「資料程式設計」，並在自然科學、工程、生物醫學與社會科學等十六個學科中實現該框架，同步開源釋出結構化知識庫、基準測試套件與訓練語料庫。通過證實訓練資料與模型行為間存在可追溯的結構化關聯且具系統化修復能力，本研究為人類專業知識的可靠遷移奠定了理論基礎。

DV-World：在真實世界場景中對資料視覺化代理進行基準測試
DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Apr 28

ByJinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu

現實世界的資料視覺化需要具備原生環境基礎、跨平台演進能力及主動意圖對齊。然而現有基準測試常受限於程式碼沙箱隔離、僅支援單一語言的創作型任務，以及對完美意圖的假設。為彌合這些差距，我們推出DV-World基準測試套件，包含260項任務，旨在全面評估資料視覺化代理在真實專業工作流程中的表現。DV-World涵蓋三大領域：DV-Sheet專注原生試算表操作，包含圖表與儀表板創建及診斷修復；DV-Evolution針對跨程式典範的參考視覺作品改編與重構；DV-Interact則透過模擬真實世界模糊需求的使用者模擬器，實現主動意圖對齊。我們的混合評估框架整合了確保數值精確度的表格值對齊技術，以及採用評分規程進行語義視覺評估的多模態大模型評判機制。實驗顯示，現有頂尖模型的整體表現不足50%，暴露其在處理真實世界資料視覺化複雜挑戰時的關鍵缺陷。DV-World提供了一個貼近現實的測試平台，可引導技術發展朝向企業工作流程所需的多元專業能力邁進。本專案資料與程式碼已公開於：https://github.com/DA-Open/DV-World{專案頁面}。

AutoResearchBench：基於複雜科學文獻發現的人工智慧代理基準測試
AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

Apr 28

ByLei Xiong, Kun Luo, Ziyi Xia, Wenbo Zhang, Jin-Ge Yao, Zheng Liu, Jingying Shao, Jianlyu Chen, Hongjin Qian, Xi Yang, Qian Yu, Hao Li, Chen Yue, Xiaan Du, Yuyang Wang, Yesheng Liu, Haiyu Xu, Zhicheng Dou

得益於人工智慧代理的發展，自主科學研究取得了顯著進展。該過程中的關鍵環節是尋找合適的科學文獻，無論是為研究問題探索現有知識，還是為驗證假設和支持主張獲取證據。為評估人工智慧代理驅動此過程的能力，我們提出AutoResearchBench——一個專注於自主科學文獻發現的基準測試。AutoResearchBench包含兩類互補的任務型態：（1）深度研究：要求通過漸進式多步驟探詢過程追蹤特定目標論文；（2）廣度研究：要求全面收集滿足給定條件的論文集合。相較於以往關於代理網路瀏覽的基準測試，AutoResearchBench在三個維度上具有顯著特徵：其具備研究導向性，需要對科學概念進行深入理解；文獻聚焦性，要求精細化利用細節資訊；以及開放性，涉及未知數量的合格論文，因而需要貫穿全程的審慎推理與搜索。這些特性使AutoResearchBench特別適合評估自主研究能力，同時也帶來極大挑戰。即使是最強大的大語言模型，儘管已基本攻克BrowseComp等通用代理網路瀏覽基準測試，在深度研究任務上僅達到9.39%的準確率，在廣度研究任務上僅獲得9.31%的交並比（IoU），而其他許多強基線模型表現均低於5%。我們公開釋出資料集與評估流程以促進該方向的未來研究。資料集、評估流程及程式碼已公開於：https://github.com/CherYou/AutoResearchBench。

Meta-CoT：提升圖像編輯的細粒度控制與泛化能力
Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Apr 27

ByShiyi Zhang, Yiji Cheng, Tiankai Hang, Zijin Yin, Runze He, Yu Xu, Wenxun Dai, Yunlong Lin, Chunyu Wang, Qinglin Lu, Yansong Tang

統一多模態理解/生成模型通過將細粒度理解融入其思維鏈過程，在圖像編輯性能上展現出顯著提升。然而，一個關鍵問題仍未得到充分探索：何種形式的思維鏈與訓練策略能共同增強理解粒度與泛化能力？為此，我們提出Meta-CoT範式，該範式通過雙層分解機制處理單圖像編輯操作，具備兩大關鍵特性：（1）可分解性。我們發現任何編輯意圖均可表示為三元組——（任務、目標、所需理解能力）。受此啟發，Meta-CoT同時分解編輯任務與目標，生成任務專屬的思維鏈，並對所有目標執行編輯操作遍歷。這種分解機制不僅增強模型對編輯操作的細粒度理解，更引導其在訓練中學習三元組的各個要素，從而顯著提升編輯能力。（2）泛化性。在第二層分解中，我們將編輯任務進一步解構為五個基礎元任務。實驗表明，僅需對這五個元任務連同三元組的其餘兩個要素進行訓練，即可在多元未見編輯任務上實現強泛化性能。為進一步校準模型編輯行為與思維鏈推理的協同性，我們引入思維鏈-編輯一致性獎勵機制，促使模型在編輯過程中更精準有效地利用思維鏈信息。實驗結果證實，本方法在21項編輯任務中實現整體15.8%的性能提升，且僅需對少量元任務進行訓練即可有效泛化至未見編輯任務。我們的代碼、基準測試與模型已開源於：https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

透過再生實現精煉：擴大修改空間提升統一多模態模型的圖像精細化能力
Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

Apr 28

ByJiayi Guo, Linqing Wang, Jiangshan Wang, Yang Yue, Zeyu Liu, Zhiyuan Zhao, Qinglin Lu, Gao Huang, Chunyu Wang

統一多模態模型（UMMs）在單一框架內整合了視覺理解與生成能力。針對文生圖（T2I）任務，這種統一特性使UMMs能在初始生成後對輸出結果進行優化，從而有望突破性能上限。當前基於UMM的優化方法主要遵循「編輯式優化」（RvE）範式，即模型產生編輯指令來修正未對齊區域，同時保留已對齊內容。然而編輯指令往往僅能粗略描述提示詞與圖像間的錯位問題，導致優化不徹底。此外，像素級內容保留雖為編輯所需，卻不必要地限制了有效優化空間。為解決這些局限，我們提出「再生式優化」（RvR）新框架，將優化重新定義為條件式圖像再生而非編輯。RvR不再依賴編輯指令與強制性內容保留，而是根據目標提示詞與初始圖像語義標記進行條件化再生，從而實現更完整的語義對齊與更寬廣的修改空間。大量實驗驗證了RvR的有效性：Geneval指標從0.78提升至0.91，DPGBench從84.02進步到87.21，UniGenBench++更從61.53躍升至77.41。

互促式雙模態自演進：快速自回歸音視頻角色生成
Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

Apr 28

ByYupeng Zhou, Lianghua Huang, Zhifan Wu, Jiabao Wang, Yupeng Shi, Biao Jiang, Daquan Zhou, Yu Liu, Ming-Ming Cheng, Qibin Hou

本研究提出「互促生成」框架，專注於實現長時序音視頻同步的快速自迴歸生成。該方法著力解決兩大關鍵挑戰：聯合音視頻建模與快速自迴歸生成。為簡化聯合優化過程，我們採用兩階段訓練策略：先訓練單模態生成器，再將其耦合為統一模型進行配對數據的聯合訓練。針對流式生成需求，我們探索能否直接訓練原生快速因果音視頻模型，而非沿用現行需先訓練雙向模型、再通過多輪蒸餾轉換為因果生成器的流水線。互促生成給出肯定答案——該框架直接基於原生自迴歸模型，在單個權重共享模型中整合少步生成與多步生成機制，實現自我蒸餾並提升訓練-推理一致性。多步模式通過自我蒸餾提升少步模式性能，而少步模式在訓練時生成歷史上下文以增強一致性；由於兩種模式參數共享，這種促進效應在單一模型內形成良性循環。相較於Self-Forcing等既有方法，互促生成無需額外雙向教師模型，支持更靈活的訓練序列長度，降低訓練開銷，並能直接從真實配對數據中學習而非依賴固定教師模型。實驗表明，互促生成在僅使用4至8步採樣的情況下，即可匹配或超越需約50步採樣的強基線模型，在效率與質量層面均展現顯著優勢。項目頁面請見：https://mutualforcing.github.io。

Step-Audio-R1.5 技術報告
Step-Audio-R1.5 Technical Report

Apr 28

ByYuxin Zhang, Xiangyu Tony Zhang, Daijiao Liu, Fei Tian, Yayue Deng, Jun Chen, Qingjian Lin, Haoyang Zhang, Yuxin Li, Jinglan Gong, Yechang Huang, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Gang Yu, Xiangyu Zhang, Daxin Jiang

近期大型音訊語言模型的進展，已將思維鏈推理延伸至聽覺領域，使模型能處理日益複雜的聲學與語音任務。為激發並維持這些延伸推理鏈，當前主流範式——受文本推理模型成功經驗驅動——普遍依賴「可驗證獎勵的強化學習」。然而，當模型被嚴格優化以將豐富連續的聽覺情境壓縮為孤立可驗證的文本標籤時，一個根本問題浮現：我們究竟在培育真正的音訊智能，還是僅將連續感官媒介降維為離散謎題？我們將此現象稱為「可驗證獎勵陷阱」。儘管RLVR在標準化客觀基準測試中表現卓越，卻系統性削弱了音訊模型的真實對話質感。通過將孤立正確性置於聲學細微特徵之上，RLVR將動態互動簡化為機械的「問答機器」，嚴重損害韻律自然度、情感連續性與用戶沉浸感，尤其在長輪對話中更為明顯。為彌合機械化客觀驗證與真實感官共情之間的鴻溝，我們提出Step-Audio-R1.5框架，標誌著音訊推理向「人類反饋強化學習」的範式轉移。綜合評估表明，Step-Audio-R1.5不僅保持強健的分析推理能力，更深刻重塑互動體驗，重新定義深度沉浸式長輪語音對話的邊界。

联合总监：能动生成式视频叙事
Co-Director: Agentic Generative Video Storytelling

Apr 27

ByYale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister

尽管扩散模型能够生成高保真度的视频片段，但将其转化为连贯的叙事引擎仍面临挑战。现有智能体流水线通过链式模块实现自动化生成，但因依赖独立的手工提示而存在语义漂移和级联失效问题。我们提出Co-Director——一种将视频叙事形式化为全局优化问题的分层多智能体框架。为确保语义连贯性，我们引入分层参数化方法：通过多臂赌博机全局识别潜力创意方向，同时采用局部多模态自优化循环来缓解角色漂移并保障序列级一致性。该框架实现了新颖叙事策略探索与有效创意配置利用之间的平衡。为进行评估，我们构建了GenAD-Bench数据集，包含400个虚构产品的个性化广告场景。实验表明，Co-Director显著优于现有先进基线，其原理化方法可无缝推广至更广泛的影视叙事领域。项目页面：https://co-director-agent.github.io/

禁止：通过非对称辩论实现定制策略护栏的合成训练
BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Apr 28

ByArnon Mazza, Elad Levi

針對自訂政策部署防護機制仍面臨挑戰：通用安全模型難以捕捉任務特定需求，而提示大型語言模型又存在邊界案例表現不穩定與高推理成本的問題。雖然訓練自訂分類器能兼顧準確性與效率，卻需要大量標記數據且獲取成本高昂。本文提出BARRED框架（基於反思與辯論的邊界對齊優化），僅需任務描述與少量未標記樣本即可生成忠實且多樣的合成訓練數據。該方法通過將領域空間分解為多維度以確保全面覆蓋，並採用多智能體辯論機制驗證標籤正確性，從而產出高保真度的訓練語料。在多種自訂政策上的實驗表明，基於合成數據微調的小型語言模型持續優於最先進的專有大型語言模型（含推理模型）與專用防護模型。消融實驗證實，維度分解與基於辯論的驗證對確保有效微調所需的數據多樣性與標籤保真度均具有關鍵作用。BARRED框架消除了對大量人工標注的依賴，為精準自訂防護機制提供了可擴展的解決方案。

TCOD：多轮自主智能体同策略蒸馏中的时序课程研究
TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Apr 27

ByJiaqi Wang, Wenhao Zhang, Weijie Shi, Yaliang Li, James Cheng

在線蒸餾（OPD）技術已展現出將前沿模型或領域專用模型的推理能力遷移至小型學生模型的巨大潛力。儘管該技術在靜態單輪任務中表現優異，但其在多輪智能體場景中的行為機制仍待深入探索。本研究發現原始OPD在此類場景中存在關鍵缺陷，我們稱之為軌跡級KL不穩定性。具體而言，我們觀察到KL散度與任務成功率呈現同步異變——即使訓練收斂後KL值仍持續高位運行，導致訓練過程失穩。這種不穩定性源於輪次間的誤差疊加效應：隨著錯誤累積，學生模型會偏離教師模型的有效支持域，使得監督信號可信度下降。為解決此問題，我們提出時序課程在線蒸餾（TCOD），通過課程化調控軌跡暴露深度（由短及長漸進擴展）的簡潔框架。在三個多輪智能體基準測試（ALFWorld、WebShop、ScienceWorld）中對四組師生模型的實驗表明，TCOD能有效抑制KL值飆升並增強訓練全程的KL穩定性，相比原始OPD將智能體性能最高提升18個百分點。進一步評估顯示，TCOD甚至能實現對教師模型的性能超越，並在教師模型失效的任務中展現泛化能力。

基於技能圖譜的可擴展終端任務生成研究
Toward Scalable Terminal Task Synthesis via Skill Graphs

Apr 28

ByZhiyuan Fan, Tinghao Yu, Yuanjun Cai, Jiangtao Guan, Yun Yang, Dingxin Hu, Jiang Zhou, Xing Wu, Zhuo Han, Feng Zhang, Lilin Wang

终端智能体已展现出强大的自主命令行执行潜力，但其训练仍受限于高质量多样化执行轨迹的稀缺性。现有方法通过合成大规模终端任务实例进行轨迹采样以缓解这一瓶颈，但主要侧重于任务数量的扩展，对智能体实际训练过程中执行轨迹多样性的控制能力有限。本文提出SkillSynth——一种基于场景中介技能图的终端任务自动合成框架。该方法首先构建大规模技能图，以场景作为中间过渡节点连接多样化命令行技能；随后从图中采样路径作为现实工作流的抽象表示，并通过多智能体系统将其实例化为可执行任务。通过基于图采样工作流路径的任务合成机制，SkillSynth能显式控制解决合成任务所需最小执行轨迹的多样性。在Terminal-Bench上的实验验证了该框架的有效性。此外，Hy3 Preview已采用SkillSynth合成的任务实例进行训练，显著提升了其在终端环境中的智能体能力。

MAIC-UI：基于生成式用户界面的交互式课件制作系统
MAIC-UI: Making Interactive Courseware with Generative UI

Apr 28

ByShangqing Tu, Yanjia Li, Keyu Chen, Sichen Zhang, Jifan Yu, Daniel Zhang-Li, Lei Hou, Juanzi Li, Yu Zhang, Huiqin Liu

传统STEM互动课件制作需要HTML/CSS/JavaScript专业技能，这为教育工作者设置了门槛。尽管生成式人工智能能够产出HTML代码，但现有工具仅能生成静态演示而非互动模拟，难以处理长文档，且缺乏教学准确性保障机制。此外，完整重新生成修改需耗时200-600秒，严重干扰创作流程。我们提出MAIC-UI零代码创作系统，支持教育工作者基于教材、PPT和PDF快速创建并编辑互动课件。该系统具备三大特性：（1）通过多模态结构化知识分析确保教学严谨性；（2）采用生成-验证-优化的两阶段流程，将内容对齐与视觉优化分离；（3）基于点击定位编辑与统一差异增量生成技术，实现10秒内的迭代周期。40人参与的对照实验表明，相较于直接文本转HTML生成，MAIC-UI将编辑迭代次数从7.0次降至4.9次，显著提升可学习性与可控性。在53名高中生中进行的三个月课堂实践显示，MAIC-UI能增强学习自主性并缩小成绩差距——实验班STEM科目成绩提升9.21分，而对照班下降2.32分。代码已开源：https://github.com/THU-MAIC/MAIC-UI。

V-GRPO：用於生成模型去噪的線上強化學習比你想像的更簡單
V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Apr 25

ByBingda Tang, Yuhui Zhang, Xiaohan Wang, Jiayuan Mao, Ludwig Schmidt, Serena Yeung-Levy

将去噪生成模型与人类偏好或可验证奖励对齐仍是一个关键挑战。虽然基于策略梯度的在线强化学习（RL）提供了原则性的训练后优化框架，但由于这类模型的似然函数难以处理，其直接应用受到阻碍。现有研究要么通过优化采样轨迹诱导的马尔可夫决策过程（MDP）——这种方法稳定但效率低下，要么采用基于扩散证据下界（ELBO）的似然替代函数——但目前在视觉生成任务中表现欠佳。我们的核心发现是：基于ELBO的方法实际上可以实现稳定与高效兼得。通过降低替代函数方差并控制梯度步长，我们证明该方法可以超越基于MDP的方法。为此，我们提出变分GRPO（V-GRPO），该方法将基于ELBO的替代函数与群组相对策略优化（GRPO）算法相结合，并辅以一系列简单而关键的技术。我们的方法易于实现，与预训练目标保持一致，且规避了基于MDP方法的局限性。在文生图任务中，V-GRPO实现了最先进的性能，同时相比MixGRPO提速2倍，较DiffusionNFT提速3倍。

视频生成的后训练系统化框架
A Systematic Post-Train Framework for Video Generation

Apr 28

ByZeyue Xue, Siming Fu, Jie Huang, Shuai Lu, Haoran Li, Yijun Liu, Yuming Li, Xiaoxuan He, Mengzhao Chen, Haoyang Huang, Nan Duan, Ping Luo

虽然大规模视频扩散模型已展现出生成高分辨率、高语义密度内容的卓越能力，但由于提示词敏感性、时间连贯性不足及推理成本过高等关键问题，其预训练性能与实际部署需求之间仍存在显著差距。为弥合这一差距，我们提出了一套全面的后训练框架，通过四个协同阶段系统性地将预训练模型与用户意图对齐：首先采用监督微调将基础模型转化为稳定的指令遵循策略；随后通过专为视频扩散设计的创新性群组相对策略优化方法进行人类反馈强化学习，以提升感知质量和时间连贯性；继而集成基于专用语言模型的提示增强技术来优化用户输入；最终通过推理优化解决系统效率问题。这些组件共同构成了一套系统性方案，在保持预训练可控性的同时，显著提升了视觉质量、时间连贯性和指令遵循能力。该框架为构建稳定、适应性强且实际部署高效的可扩展后训练流程提供了实用蓝图。大量实验表明，这一统一流程能有效减少常见伪影，在严格遵守采样成本限制的前提下显著提升可控性与视觉美感。

语音优先国度的偏好：印度语言文本转语音系统的大规模成对评估与偏好分析
Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

Apr 23

BySrija Anand, Ashwin Sankar, Ishvinder Sethi, Aaditya Pareek, Kartik Rajput, Gaurav Yadav, Nikhil Narasimhan, Adish Pandya, Deepon Halder, Mohammed Safi Ur Rahman Khan, Praveen S V, Shobhit Banga, Mitesh M Khapra

众包配对评估已成为评估基础模型的一种可扩展方法。然而，将其应用于文本转语音（TTS）领域时，由于语言多样性和语音感知的多维特性，会引入较高方差。我们提出了一种针对多语言TTS的受控多维配对评估框架，该框架将语言控制与基于感知的标注相结合。通过使用10种印度语言中超过5000句原生及语码混合句子，我们评估了7个前沿TTS系统，并收集了来自1900余名母语评分者超过12万组配对比较数据。除整体偏好外，评分者还需在6个感知维度提供评判：可懂度、表现力、音质、生动性、噪声和幻象。采用布拉德利-特里模型构建多语言排行榜后，我们通过SHAP分析解读人类偏好，并在分析各模型在感知维度上的优势与权衡的同时，验证了排行榜的可靠性。

眼见未必为实：揭示评估者视觉语言模型的认知盲区
Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

Apr 23

ByMohammed Safi Ur Rahman Khan, Sanjay Suryanarayanan, Tushar Anand, Mitesh M. Khapra

大型视觉语言模型（VLMs）正日益广泛地用于评估其他模型的输出，涵盖图像到文本（I2T）任务（如视觉问答）和文本到图像（T2I）生成任务。尽管依赖度不断加深，这些评估型VLM的可靠性仍缺乏系统研究。本文通过I2T和T2I两类任务，系统评估了评估型VLM的可靠性。我们引入针对性扰动，沿关键错误维度（包括物体幻觉、空间推理、事实依据和视觉保真度）降低输出质量，以检验评估型VLM能否在评估中可靠识别这些质量退化型错误。通过涵盖40个扰动维度、超过4000个扰动实例的综合基准，我们采用单答案评分、成对比较和参考引导三种范式对4个主流VLM进行评估。研究发现：当前VLM评估器存在显著盲区——对扰动输出的漏检率最高可超50%；尤其难以识别细粒度组合错误和空间错误；对违背输入图像的幻觉内容常表现出不敏感。成对比较法虽更可靠，但失误率依然存在。这些结果揭示了当前评估型VLM的不可靠性，警示需谨慎将其用于模型基准测试和开发决策。相关代码与数据已公开。

IAM：身份感知的人体动作与形态联合生成
IAM: Identity-Aware Human Motion and Shape Joint Generation

Apr 28

ByWenqi Jia, Zekun Li, Abhay Mittal, Chengcheng Tang, Chuan Guo, Lezi Wang, James Matthew Rehg, Lingling Tao, Size An

近年来，文本驱动人体运动生成技术的最新进展使得模型能够根据自然语言描述合成逼真的运动序列。然而，现有方法大多假设身份中立的运动，采用标准人体表征生成动作，忽略了身体形态对运动动态的显著影响。实际上，身体比例、质量分布和年龄等属性会显著影响动作的执行方式，忽视这种耦合关系往往导致物理不一致的运动生成。我们提出了一种身份感知运动生成框架，通过显式建模身体形态与运动动态的关联关系。该方法不依赖显式几何测量，而是采用自然语言描述和视觉线索等多模态信号表征身份信息。我们进一步引入了联合运动-形态生成范式，可同步合成运动序列与身体形状参数，使身份特征能直接调制运动动态。基于运动捕捉数据集和大规模真实场景视频的广泛实验表明，该方法在保持高运动质量的同时，显著提升了运动真实感与运动-身份一致性。项目页面：https://vjwq.github.io/IAM

终极马具：一劳永逸的制作指南
The Last Harness You'll Ever Build

Apr 22

ByHaebin Seong, Li Yin, Haoran Zhang

人工智能代理正日益广泛地部署于复杂的领域特定工作流——它们需要操作需要数十次点击和表单填写的企业级网络应用，协调横跨检索、提取与整合的多步骤研究流程，自动化跨陌生代码库的代码审查，以及处理需要精深领域知识的客户升级事务。每个新任务领域都需要耗费大量心血的专家级约束框架工程：即设计提示词、工具、协调逻辑和评估标准，使基础模型能有效运作。我们提出一个双层级框架来自动化这一过程。在第一层级，约束框架进化循环针对单一任务优化工作代理的约束框架H：工作代理W_H执行任务，评估代理V以对抗性方式诊断失败并评分性能，进化代理E则基于完整历史尝试记录修改约束框架。在第二层级，元进化循环跨多样化任务优化进化协议Λ=(W_H, H^(0), V, E)本身，通过学习获得最优协议Λ^(最佳)，使任何新任务都能实现约束框架的快速收敛——从而让智能体适应全新领域时完全无需人工进行约束框架工程。我们形式化了其与元学习的对应关系，并给出双重算法。该框架将手动的约束框架工程转变为自动化的约束框架工程，并更进一步——实现了自动化设计机制本身的自我进化。

AutoGUI-v2：综合性多模态图形用户界面功能理解基准
AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

Apr 27

ByHongxin Li, Xiping Wang, Jingran Su, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang

能够自主操作图形用户界面（GUI）的智能体具有彻底改变数字生产力的潜力。然而，实现真正的数字自主性不仅需要反应式的元素匹配，更需建立对界面动态的预测性心智模型，以及预见交互后"数字世界状态"的能力。尽管现代视觉语言模型（VLM）已具备感知能力，现有基准测试仍存在二元割裂（要么关注黑盒任务完成度，要么侧重静态浅层定位），无法评估智能体是否真正理解GUI的隐式功能与状态转换逻辑。为弥补这一空白，我们推出AutoGUI-v2——一个用于评估深度GUI功能理解与交互结果预测的综合基准。我们通过创新的VLM-人类协同流程构建该基准，以递归方式将多平台截图解析为层次化功能区域来生成多样化评估任务。AutoGUI-v2涵盖六大操作系统的2,753项任务，从区域/元素级语义理解、定位能力到动态状态预测进行系统化测试。评估结果揭示了VLM的显著能力分化：基于智能体数据微调的开源模型（如Qwen3-VL）擅长功能定位，而商用模型（如Gemini-2.5-Pro-Thinking）在功能描述方面表现卓越。关键发现是，所有模型对非常见操作的复杂交互逻辑均存在理解困难，表明深度功能理解仍是重大挑战。通过系统化衡量这些基础能力，AutoGUI-v2为推进下一代GUI智能体的发展提供了全新视角。

GoClick：面向自主图形界面交互的轻量化元素定位模型
GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Apr 27

ByHongxin Li, Yuntao Chen, Zhaoxiang Zhang

图形用户界面（GUI）元素定位（基于自然语言指令在屏幕截图中精确定位元素）是GUI交互智能体的基础能力。对于需要低延迟的GUI智能体而言，将这种能力直接部署在手机等资源受限设备上日益关键。然而这一目标面临重大挑战：当前视觉定位方法通常采用超过25亿参数的大型视觉语言模型（VLM），受限于内存和计算资源而难以在终端设备运行。为此，本文提出GoClick——一个仅含2.3亿参数的轻量级GUI元素定位VLM，其在保持卓越视觉定位精度的同时，甚至可与规模大得多的模型相媲美。单纯缩小现有仅解码器VLM虽是设计轻量模型的直接方案，但实验表明该方法效果欠佳。我们最终选择编码器-解码器架构，该架构在GUI定位任务的小参数规模下优于仅解码器方案。此外，小型VLM的有限能力促使我们开发渐进式数据优化流程，通过任务类型筛选和数据比例调整，从1080万原始数据集中提炼出380万样本的高质量核心集。使用该核心集训练GoClick带来了显著的定位精度提升。实验表明，GoClick在多个GUI元素定位基准测试中表现优异，同时保持小体积和高推理速度。当集成至端-云协作框架时，GoClick能帮助云端任务规划器实现精确元素定位，进而提升GUI智能体的任务成功率。我们希望该方法能为GUI智能体领域提供有价值的探索路径。

推荐系统中公平性的离线评估指标
Offline Evaluation Measures of Fairness in Recommender Systems

Apr 27

ByTheresia Veronika Rampisela

随着近期立法对公平可信人工智能发展的强调，推荐系统公平性评估的重要性日益凸显。这促使各类公平性评估指标应运而生，它们基于不同定义对公平性进行量化。然而，此类指标大多被简单提出和使用，缺乏对鲁棒性的深入分析，导致学界对其局限性认知不足。其中尤为突出的是：何种模型输出会产生极端公平/不公平分值、指标得分的经验分布规律、以及是否存在无法计算的情形（如除零错误）等问题尚未探明。这些缺陷导致指标得分难以解读，且在具体场景中应选用何种指标存在困惑。本学位论文通过系列研究系统评估并突破了现有推荐系统公平性评估指标在理论、实证与概念层面的局限性。我们针对基于评估对象（用户/物品）和评估粒度（群体/个体）划分的不同公平概念，对多种离线评估指标展开研究。首先通过理论与实证分析揭示影响指标可解释性、表达能力及适用性的缺陷；继而提出突破这些局限的创新评估方法与指标；最后结合指标局限性提出使用指南，为实际场景中更精准地选择公平性评估指标提供依据。总体而言，本论文通过推动推荐系统公平性离线评估的前沿研究，为该领域的发展做出了贡献。