ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

Seedance 2.0:面向複雜世界場景的影片生成技術進階
Seedance 2.0: Advancing Video Generation for World Complexity

Apr 15
ByTeam Seedance, De Chen, Liyang Chen, Xin Chen, Ying Chen, Zhuo Chen, Zhuowei Chen, Feng Cheng, Tianheng Cheng, Yufeng Cheng, Mojie Chi, Xuyan Chi, Jian Cong, Qinpeng Cui, Fei Ding, Qide Dong, Yujiao Du, Haojie Duanmu, Junliang Fan, Jiarui Fang, Jing Fang, Zetao Fang, Chengjian Feng, Yu Gao, Diandian Gu, Dong Guo, Hanzhong Guo, Qiushan Guo, Boyang Hao, Hongxiang Hao, Haoxun He, Jiaao He, Qian He, Tuyen Hoang, Heng Hu, Ruoqing Hu, Yuxiang Hu, Jiancheng Huang, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Jishuo Jin, Ming Jing, Ashley Kim, Shanshan Lao, Yichong Leng, Bingchuan Li, Gen Li, Haifeng Li, Huixia Li, Jiashi Li, Ming Li, Xiaojie Li, Xingxing Li, Yameng Li, Yiying Li, Yu Li, Yueyan Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Wang Liao, J. H. Lien, Shanchuan Lin, Xi Lin, Feng Ling, Yue Ling, Fangfang Liu, Jiawei Liu, Jihao Liu, Jingtuo Liu, Shu Liu, Sichao Liu, Wei Liu, Xue Liu, Zuxi Liu, Ruijie Lu, Lecheng Lyu, Jingting Ma, Tianxiang Ma, Xiaonan Nie, Jingzhe Ning, Junjie Pan, Xitong Pan, Ronggui Peng, Xueqiong Qu, Yuxi Ren, Yuchen Shen, Guang Shi, Lei Shi, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Wenjing Tang, Boyang Tao, Zirui Tao, Dongliang Wang, Feng Wang, Hulin Wang, Ke Wang, Qingyi Wang, Rui Wang, Shuai Wang, Shulei Wang, Weichen Wang, Xuanda Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Zijie Wang, Ziyu Wang, Guoqiang Wei, Meng Wei, Di Wu, Guohong Wu, Hanjie Wu, Huachao Wu, Jian Wu, Jie Wu, Ruolan Wu, Shaojin Wu, Xiaohu Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Xin Xia, Xuefeng Xiao, Shuang Xu, Bangbang Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yihang Yang, Zhixian Yang, Ziyan Yang, Fulong Ye, Bingqian Yi, Xing Yin, Yongbin You, Linxiao Yuan, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Siyu Zhai, Zhonghua Zhai, Bowen Zhang, Chenlin Zhang, Heng Zhang, Jun Zhang, Manlin Zhang, Peiyuan Zhang, Shuo Zhang, Xiaohe Zhang, Xiaoying Zhang, Xinyan Zhang, Xinyi Zhang, Yichi Zhang, Zixiang Zhang, Haiyu Zhao, Huating Zhao, Liming Zhao, Yian Zhao, Guangcong Zheng, Jianbin Zheng, Xiaozheng Zheng, Zerong Zheng, Kuan Zhu, Feilong Zuo
110
5

Seedance 2.0 是一款全新的原生多模態音視頻生成模型,於2026年2月初在中國正式發佈。相較前代 Seedance 1.0 和 1.5 Pro,Seedance 2.0 採用統一、高效、大規模的多模態音視頻聯合生成架構,通過整合業界迄今最全面的多模態內容參考與編輯能力套件,可支持文本、圖像、音頻、視頻四種輸入模態。該模型在視頻與音頻生成的所有關鍵子維度均實現了顯著且全面的提升,在專家評測與公開用戶測試中均展現出與領域領先水平相當的性能。Seedance 2.0 支持直接生成時長4至15秒的音視頻內容,原生輸出分辨率為480p與720p。針對多模態參考輸入,其當前開放平台最高支持3段視頻、9張圖像及3段音頻片段。此外,我們同步推出 Seedance 2.0 Fast 版本,作為 Seedance 2.0 的加速變體,專為低延遲場景提升生成速度。Seedance 2.0 在基礎生成能力與多模態生成性能上的重大突破,為終端用戶帶來升級的創作體驗。

2

游戏世界:迈向多模态游戏智能体的标准化与可验证评估
GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Apr 8
ByMingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou
105
3

为实现与现实世界交互的具身通用智能,多模态大语言模型智能体仍面临延迟高、反馈稀疏和错误不可逆等挑战。电子游戏凭借其丰富的视觉观察与闭环交互特性,成为需要细粒度感知、长程规划和精准控制的理想试验场。然而,异构动作接口与启发式验证方法当前阻碍了对这些能力的系统性评估。为此,我们推出GameWorld基准测试平台,旨在通过浏览器环境对多模态大语言模型作为通用游戏智能体进行标准化可验证评估。研究涵盖两类游戏智能体接口:(i)直接输出键鼠控制的计算机使用型智能体;(ii)通过确定性语义动作解析在语义动作空间操作的通用多模态智能体。GameWorld包含34款多样化游戏和170项任务,每项任务均配备可验证状态指标以实现结果导向型评估。18组模型-接口对的测试结果表明,即使最优智能体仍远未达到人类玩家的游戏水平。通过全基准重复测试的广泛实验验证了平台的稳健性,而实时交互、上下文记忆敏感度和动作有效性等深入研究揭示了游戏智能体面临的更多挑战。GameWorld通过提供标准化、可验证、可复现的评估框架,为推进多模态游戏智能体及其他领域的研究奠定了坚实基础。项目页面详见https://gameworld-bench.github.io。

3

理性獎勵:推理獎勵在訓練與測試階段雙向調控視覺生成
RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Apr 13
ByHaozhe Wang, Cong Wei, Weiming Ren, Jiaming Liu, Fangzhen Lin, Wenhu Chen
95
2

當前大多數視覺生成獎勵模型將豐富的人類判斷簡化為單一且未經解釋的分數,從而丟失了偏好背後的推理過程。我們的研究表明,訓練獎勵模型在評分前先產生明確的多維度批評,能將其從被動評估工具轉變為主動優化工具,並通過兩種互補方式改進生成器:在訓練階段,結構化推理能為強化學習提供可解釋的細粒度獎勵;在測試階段,「生成-批評-優化」循環可將批評轉化為針對性的提示詞修正,從而無需參數更新即可提升輸出質量。為避免耗費高昂的推理標註成本,我們提出偏好錨定推理(PARROT)框架,通過錨定生成、一致性篩選和蒸餾技術,從現成的偏好數據中還原高質量推理。由此產生的模型 RationalRewards(80億參數)在開源獎勵模型中實現了最先進的偏好預測性能,與 Gemini-2.5-Pro 相媲美,且訓練數據量比同類基線模型減少10-20倍。作為強化學習獎勵,它相較於純量獎勵能持續提升文本到圖像及圖像編輯生成器的表現。最引人注目的是,其測試階段的批評優化循環在多項基準測試中達到甚至超越了基於強化學習的微調效果,這表明結構化推理能激發現有生成器中因次優提示詞而未被釋放的潛在能力。

4

SpatialEvo:透過確定性幾何環境實現自我演化的空間智能
SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Apr 15
ByDinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
60
0

三維場景的空間推理是具身智能的核心能力,然而幾何標註的成本持續制約著模型的持續改進。自我演化範式雖提供可行路徑,但其依賴模型共識構建偽標籤的機制會導致訓練過程強化而非修正模型自身的幾何誤差。我們發現三維空間推理獨有的特性可突破此限制:真實標註是底層幾何的確定性產物,可直接從點雲和相機位姿精確計算而得,無需模型介入。基於此洞見,我們提出 SpatialEvo——以確定性幾何環境(DGE)為核心的三維空間推理自我演化框架。DGE 將 16 類空間推理任務形式化為明確定義的幾何驗證規則,把未標註三維場景轉化為零噪聲的交互式驗證器,以客觀物理反饋取代模型共識。單一共享參數策略在 DGE 約束下協同演化提問者與求解者雙重角色:提問者基於場景觀測生成符合物理規律的空間問題,求解者則參照 DGE 驗證的真實標註推導精確答案。任務自適應調度器內生性地將訓練聚焦於模型最薄弱環節,無需人工設計即可生成動態課程。在九個基準測試上的實驗表明,SpatialEvo 在 3B 和 7B 規模下均取得最高平均分,在空間推理基準上實現持續提升,且未損害通用視覺理解能力。

5

OccuBench:透過語言世界模型評估AI代理在真實世界專業任務上的表現
OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Apr 13
ByXiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
46
1

AI代理預期將在數百個職業領域(從急診分診到核反應爐安全監控,再到海關進口處理)執行專業工作,然而現有基準僅能在少數存在公共環境的領域中評估代理。我們推出OccuBench——一個涵蓋10大行業類別、65個專業領域共100個真實職業任務場景的基準,該基準通過語言世界模型(LWM)實現,利用LLM驅動的工具響應生成來模擬領域特定環境。我們的多代理合成管道能自動生成具備可解性保證、難度校準和文檔錨定多樣性的評估實例。OccuBench從兩個互補維度評估代理:跨專業領域的任務完成度,以及在受控故障注入(顯性錯誤、隱性數據劣化與混合故障)下的環境魯棒性。我們評估了8個模型家族的15個前沿模型,發現:(1)沒有單一模型能在所有行業佔優,各自具備獨特的職業能力譜;(2)隱性故障(數據截斷、字段缺失)比顯性錯誤(超時、500狀態碼)和混合故障更難處理,因其缺乏明顯錯誤信號,要求代理自主檢測數據劣化;(3)更大模型、更新代際及更高推理投入能持續提升性能,GPT-5.2從最低到最高推理投入時性能提升27.5分;(4)強力代理未必是優秀的環境模擬器,模擬器質量對基於LWM的評估可靠性至關重要。OccuBench首次為AI代理在專業職業任務上提供了系統化的跨行業評估框架。

6

從P(y|x)到P(y):探索預訓練空間中的強化學習
From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Apr 15
ByYuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
23
1

雖然具可驗證獎勵的強化學習(RLVR)通過優化條件分佈P(y|x)顯著增強了大語言模型的推理能力,但其潛力從根本上受制於基礎模型現有的輸出分佈。在預訓練空間中優化邊際分佈P(y)能突破此瓶頸,該方法既能編碼推理能力又可保持廣泛的探索容量。然而傳統預訓練依賴靜態語料庫進行被動學習,會導致分佈偏移從而阻礙針對性推理增強。本文提出預訓練空間強化學習(PreRL),將獎勵驅動的在線更新直接應用於P(y)。我們從理論和實證角度驗證了log P(y)與log P(y|x)之間的強梯度對齊關係,確立PreRL可作為標準RL的有效替代方案。更重要的是,我們發現PreRL中的負樣本強化(NSR)機制是驅動推理的關鍵:NSR-PreRL能快速剪除錯誤推理空間,同時激發內生性反思行為,使轉換思維和反思思維分別提升14.89倍和6.54倍。基於這些發現,我們提出雙空間強化學習(DSRL)——一種策略重生方案:先通過NSR-PreRL初始化模型以擴展推理邊界,再轉向標準RL進行細粒度優化。大量實驗表明DSRL持續超越強基線模型,證明預訓練空間剪枝能有效引導策略朝向精煉的正確推理子空間演進。

7

記憶遷移學習:編碼智慧體中跨領域記憶的遷移機制
Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Apr 15
ByKangsan Kim, Minki Kang, Taeil Kim, Yanlai Yang, Mengye Ren, Sung Ju Hwang
23
1

基於記憶的自我演化已成為程式設計代理程式的一項重要範式。然而,現有方法通常將記憶運用限制於同質任務領域,未能充分利用現實世界中各類程式設計問題間存在的共享基礎設施(如執行環境與程式語言)。為突破此限制,我們透過整合異質領域的統一記憶池,探索記憶遷移學習(MTL)機制。我們使用四種從具體執行軌跡到抽象洞見的記憶表徵,在六項程式設計基準測試中進行評估。實驗結果表明,跨領域記憶可提升平均效能達3.7%,其增益主要來自驗證流程等後設知識的遷移,而非特定任務的程式碼。關鍵在於,我們發現抽象程度決定可遷移性:高層次洞見具備良好泛化能力,而低層次軌跡因過度具體化常導致負遷移。此外,我們證實遷移效果隨記憶池規模擴展而增強,且記憶可在不同模型間實現遷移。本研究確立了將記憶運用擴展至單領域孤島之外的實證設計原則。專案頁面:https://memorytransfer.github.io/

8

語言模型代理的探索與利用錯誤可被量化衡量
Exploration and Exploitation Errors Are Measurable for Language Model Agents

Apr 14
ByJaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
21
2

語言模型(LM)代理在從AI編碼到實體AI的複雜開放式決策任務中日益普及。這類應用的核心需求是既能探索問題空間,又能有效利用已獲取知識。然而,在無法觸及代理內部策略的情況下,系統性地從觀測行動中區分並量化探索與利用行為仍具挑戰性。為此,我們基於實際具身AI場景設計了可控環境:每個環境由部分可觀測的二維網格地圖與未知任務的定向無環圖(DAG)構成。地圖生成可通過程式化調整以強化探索或利用的難度。為實現策略無關評估,我們設計了從代理行動量化探索與利用誤差的指標。通過對多種前沿語言模型代理的測試,發現即使最先進的模型在我們的任務中也表現不佳,且不同模型呈現出相異的失敗模式。我們進一步觀察到,推理模型能更有效地解決任務,並證明通過最小化的架構工程即可顯著提升探索與利用能力。相關程式碼已發佈於此處:https://github.com/jjj-madison/measurable-explore-exploit。

9

目標策略優化
Target Policy Optimization

Apr 7
ByJean Kaddour
19
1

在強化學習中,給定提示後,我們會從模型中採樣一組補全結果並對其評分。隨之而來的兩個問題是:哪些補全結果應獲得概率質量分配?以及模型參數應如何調整以實現這種變化?標準的策略梯度方法會同時回答這兩個問題,因此更新步長可能因學習率、梯度裁剪等優化器選擇而出現過衝或欠衝。我們提出的目標策略優化(TPO)方法將這兩個問題分離處理:給定評分後的補全結果,TPO 會構建一個目標分佈 q_i ∝ p_i^{舊} exp(u_i),並通過交叉熵將策略擬合至該分佈。採樣補全對數幾率的損失梯度為 p^θ - q,當策略與目標匹配時梯度消失。在表格型多臂老虎機、Transformer序列任務以及數十億參數LLM的RLVR任務中,TPO在簡單任務上與PG、PPO、GRPO和DG表現相當,而在稀疏獎勵環境下則顯著優於這些方法。程式碼已開源於 https://github.com/JeanKaddour/tpo。

10

語碼框架:將AI編碼代理解耦為可編程、可嵌入的基礎設施
Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

Apr 13
ByHuacan Wang, Jie Zhou, Ningyan Zhu, Shuo Zhang, Feiyu Chen, Jiarou Wu, Ge Chen, Chen Liu, Wangyi Chen, Xiaofeng Mou, Yi Xu
18
1

AI編程代理已成為開發者工作流程的核心,然而現有解決方案皆將其推理能力侷限於特定交付形式中,例如CLI、IDE外掛或網頁應用程式。這種限制在企業試圖跨異質工程環境複用這些能力時,會形成系統性障礙。為解決此挑戰,我們推出Sema Code——一個基於可嵌入、可插拔、框架優先原則構建的開放式AI編程框架。Sema Code將核心代理引擎與所有客戶端層完全解耦,將其發布為獨立的npm套件,可供任何運行時透過程式化方式驅動。圍繞此架構,我們設計了八大關鍵機制:多租戶引擎隔離、具安全會話重建功能的FIFO輸入佇列、自適應上下文壓縮、多代理協作調度、基於Todo的智慧流程管理、四層非同步權限控制、涵蓋MCP/Skills/Plugins的三級生態整合,以及具執行與觀察權限分離的後台任務框架。這些機制共同解決了將複雜代理引擎轉化為可共享、可編程核心的工程難題。為展現其架構靈活性,同一套Sema Core引擎同時驅動了VSCode擴充功能與名為SemaClaw的多通道訊息網關,後者可統一處理Telegram、飛書等平台的代理互動。這兩個產品形式雖共享完全相同的推理內核,僅在客戶端層存在差異,卻展現了截然不同的產品形態。

11

SemaClaw:通过驾驭工程迈向通用个人AI代理的关键一步
SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering

Apr 13
ByNingyan Zhu, Huacan Wang, Jie Zhou, Feiyu Chen, Shuo Zhang, Ge Chen, Chen Liu, Jiarou Wu, Wangyi Chen, Xiaofeng Mou, Yi Xu
15
1

2026年初OpenClaw的崛起标志着数百万用户开始将个人AI智能体融入日常生活,从旅行规划到多步骤研究等任务均实现委托代理。这种规模的应用表明两条并行的发展弧线已抵达转折点:首先是AI工程的范式转变,从提示与上下文工程演进为约束系统工程——即设计完整的基础设施,将无约束智能体转化为可控、可审计且具备生产可靠性的系统。随着模型能力趋同,约束层正成为架构差异化的主战场;其次是人机交互从离散任务向持续化、具情境意识的协作关系演进,这要求构建开放、可信且可扩展的约束基础设施。我们提出开源多智能体应用框架SemaClaw,通过约束工程向通用个人AI智能体迈出关键一步。核心创新包括基于有向无环图的双阶段混合智能体团队编排方法、PermissionBridge行为安全系统、三层上下文管理架构,以及用于自动化个人知识库构建的智能维基技能。

12

自由几何:基于自身长序列优化的三维重建精炼方法
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Apr 15
ByYuhang Dai, Xingyi Yang
14
1

前馈式三维重建模型虽效率卓越但缺乏灵活性:一旦训练完成,其推理过程采用零样本模式而无法适配测试场景。这导致视觉上合理的重建结果常存在误差,尤其在遮挡、镜面反射和模糊线索等情况下更为明显。为此,我们提出Free Geometry框架,使前馈式三维重建模型能在无三维真值标注的测试阶段实现自我进化。我们的核心发现是:当模型获取更多视角时,其重建结果会更具可靠性和视角一致性。基于此特性,对于给定测试序列,我们通过掩码部分帧构建自监督任务。该框架在保持被遮蔽帧所隐含的成对关系的同时,强制实现完整观测与部分观测间的跨视角特征一致性。这种自监督机制通过轻量级LoRA更新实现快速参数校准,单GPU上每数据集耗时不足2分钟。我们的方法在4个基准数据集上持续提升了包括Depth Anything 3和VGGT在内的前沿基础模型性能,相机位姿精度平均提升3.73%,点云图预测平均提升2.88%。代码已开源:https://github.com/hiteacherIamhumble/Free-Geometry。

13

LangFlow:连续扩散模型在语言建模领域比肩离散方法
LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Apr 15
ByYuxin Chen, Chumeng Liang, Hangke Sui, Ruihan Guo, Chaoran Cheng, Jiaxuan You, Ge Liu
11
1

连续扩散模型已成为图像等多种数据模态实现高保真度、可控性及少步生成的基础。然而在语言建模领域,由于数据空间的稀疏性及设计空间探索不足,现有连续扩散语言模型(DLM)的表现一直落后于离散模型。本研究通过将嵌入空间DLM与基于布雷格曼散度的流匹配方法相结合,并引入三项关键创新,成功弥合了这一差距:首先,我们推导出基于常微分方程的新型负对数似然边界,为连续流式语言模型提供理论评估依据;其次,提出信息均匀性原则来设定噪声调度,并据此设计基于冈贝尔分布的可学习噪声调度器;最后,通过引入自条件机制改进训练流程,发现其能显著提升嵌入空间DLM的似然度和生成质量,且效果与离散扩散模型存在本质差异。综合这些创新,LangFlow在困惑度(PPL)和生成困惑度(Gen. PPL)指标上均可媲美顶尖离散DLM,在LM1B数据集上达到30.0的PPL值,在OpenWebText数据集上达到24.6。在7个基准测试中,更有4个任务的零样本迁移表现超越自回归基线模型。LangFlow首次明确证明连续扩散是语言建模领域具有前景的研究范式。项目主页:https://github.com/nealchen2003/LangFlow

14

提示:策略蒸馏中的令牌重要性
TIP: Token Importance in On-Policy Distillation

Apr 15
ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
10
1

在策略蒸馏(OPD)通过教师模型的词元级监督,基于学生模型自身生成的序列进行训练。不同词元位置的重要性存在差异,但现有对词元重要性的认知尚不完善。我们直指核心问题:在OPD中哪些词元承载着最有效的学习信号?研究发现,信息量丰富的词元来源于两个区域:学生模型熵值较高的位置,以及学生模型熵值较低但师生分歧度较高的位置(即学生模型过度自信却判断错误的情形)。 实证表明,学生模型熵值可作为强效的一阶代理指标:基于熵值采样保留50%的词元进行训练,其效果等同或优于全词元训练,同时峰值内存占用降低达47%。但仅依赖熵值会遗漏第二个关键区域。当我们单独提取低熵值-高分歧度的词元时,仅使用不足10%的词元进行训练即可接近全词元基线效果,这证明过度自信的词元虽在纯熵值规则下几乎不可见,却蕴含着密集的纠错信号。 基于这些发现,我们提出TIP(在策略蒸馏中的词元重要性)框架——一个以学生模型熵值和师生分歧度为双轴构建的分类体系,并从理论层面阐释了熵值有效但存在结构局限的原因。该视角催生了结合不确定性与分歧度的类型感知词元选择规则。我们在Qwen3、Llama和Qwen2.5构成的三个师生模型组合上进行了验证,测试集涵盖MATH-500和AIME 2024/2025,并在面向长程智能体规划的DeepPlanning基准测试中取得突破:仅使用不足20%的Q3词元进行训练即可超越全词元OPD效果。本实验通过扩展OPD代码库(https://github.com/HJSang/OPSD_OnPolicyDistillation)实现,该库支持在有限GPU预算下对大型模型进行内存高效的蒸馏训练。

15

UI-Zoomer:基于不确定度驱动的自适应界面局部放大定位技术
UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Apr 15
ByFei Tang, Bofan Chen, Zhengxi Lu, Tongbo Chen, Songqin Nong, Tao Jiang, Wenhao Xu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
9
0

基于自然语言查询从屏幕截图中定位界面元素的GUI接地技术,在面对小型图标和密集布局时仍存在挑战。传统测试时放大方法通过裁剪图像并以更高分辨率重新推理来提升定位效果,但这类方法对所有实例采用固定尺寸的均匀裁剪,忽略了模型对每个案例的实际置信度。我们提出UI-Zoomer,一种无需训练的自适应放大框架,将放大操作的触发条件和缩放尺度转化为预测不确定性量化问题。该框架通过置信感知门控机制,将随机候选框的空间共识与词元级生成置信度相融合,仅在定位不确定时选择性触发放大操作。当触发放大时,不确定性驱动的裁剪尺寸模块将预测方差分解为样本间位置离散度和样本内边界框扩展度,通过全方差定律计算每个实例的自适应裁剪半径。在ScreenSpot-Pro、UI-Vision和ScreenSpot-v2数据集上的大量实验表明,该方法在多种模型架构下均能持续提升基线性能,分别实现最高+13.4%、+10.3%和+4.2%的增益,且无需额外训练。

16

TREX:基於智能體驅動樹狀探索的大語言模型自動化微調
TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Apr 15
ByZerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li
9
1

尽管大语言模型(LLM)已使AI研究智能体能够完成独立的科研任务,但实现复杂现实工作流程(如LLM训练)的自动化仍面临重大挑战。本文提出TREX多智能体系统,可自动化执行完整的LLM训练生命周期。通过协调两大核心模块——研究器与执行器——的协作,该系统能够无缝实现需求分析、开放域文献与数据研究、训练策略制定、数据配方准备以及模型训练与评估。该系统将多轮实验过程建模为搜索树,使其能高效规划探索路径、复用历史结果,并从迭代试验中提炼高层洞察。为评估自动化LLM训练能力,我们构建了FT-Bench基准测试集,包含源自真实场景的10项任务,涵盖从优化基础模型能力到提升领域特定任务性能的多个维度。实验结果表明,TREX智能体能持续优化模型在目标任务上的性能表现。

17

ReconPhys:基于单视频的外观与物理属性重建
ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Apr 9
ByBoyuan Wang, Xiaofeng Wang, Yongkang Li, Zheng Zhu, Yifan Chang, Angen Ye, Guosheng Zhao, Chaojun Ni, Guan Huang, Yijie Ren, Yueqi Duan, Xingang Wang
8
1

实现物理可信的非刚性物体重建仍是一项重大挑战。现有方法通过可微分渲染进行逐场景优化,虽能恢复几何形态与动态特性,但需耗费大量调参或人工标注,限制了其实用性与泛化能力。为此,我们提出ReconPhys——首个基于单目视频端到端联合学习物理属性估计与3D高斯溅射重建的前馈框架。该方法采用通过自监督策略训练的双分支架构,无需真实物理标签。给定视频序列后,ReconPhys可同步推断几何结构、外观属性及物理参数。在大规模合成数据集上的实验表明其卓越性能:在未来帧预测任务中,本方法PSNR达21.64,显著优于最优优化基线方法的13.27;同时将倒角距离从0.349降至0.004。关键突破在于,ReconPhys可实现秒级(<1秒)推理,相较现有方法所需的数小时计算,能快速生成适用于机器人学与图形学的仿真就绪资产。

18

**MERRIN:面向嘈杂网络环境的多模态证据检索与推理基准**
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Apr 15
ByHan Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
5
1

受搜索查询本身存在的模糊性、多跳性特征,以及现实网络环境中多模态、异质性且常含矛盾信息的启发,我们推出了MERRIN(嘈杂网络环境中的多模态证据检索与推理)基准数据集。该人工标注数据集旨在评估增强搜索智能体的性能,重点考察AI智能体在嘈杂网络环境中识别相关模态、检索多模态证据并进行多跳推理的能力。MERRIN在以下三方面区别于现有研究:(1)采用无明确模态提示的自然语言查询;(2)纳入视频、音频等尚未充分探索的模态;(3)要求在网络搜索过程中检索复杂且常含噪声或矛盾的多模态证据。我们评估了基于十种模型的多样化搜索智能体,包括强闭源模型(如GPT-5.4-mini、Gemini 3/3.1 Flash/Pro)和开源权重模型(Qwen3-4B/30B/235B),涵盖三种搜索场景(无搜索、原生搜索和智能体搜索)。实验结果表明MERRIN具有高度挑战性:所有智能体平均准确率仅为22.3%,最优模型仅达到40.1%。进一步观察发现,尽管Gemini Deep Research等强智能体表现更优,但由于过度探索导致提升有限——它们虽使用更多工具和执行更多步骤,却常被矛盾或部分相关的网络内容干扰而得出错误答案。与人类相比,这些智能体消耗更多资源却准确率更低,主要源于低效的信源选择和过度依赖文本模态。这些发现凸显了开发能够在嘈杂网络环境中进行跨模态稳健搜索与推理的智能体的必要性,使MERRIN成为评估此类能力的宝贵测试平台。

19

基于叙事驱动的ArcDeck:从论文到幻灯片的智能生成系统
Narrative-Driven Paper-to-Slide Generation via ArcDeck

Apr 13
ByTarik Can Ozden, Sachidanand VS, Furkan Horoz, Ozgur Kara, Junho Kim, James Matthew Rehg
5
1

我们推出ArcDeck——一个将论文转化为幻灯片的过程构建为结构化叙事重建任务的多智能体框架。与现有方法直接对原始文本进行摘要生成幻灯片不同,ArcDeck显式建模源论文的逻辑脉络。该框架首先解析输入内容以构建语篇树并生成全局主旨文档,确保高层次论述意图得以保留。这些结构化先验信息随后引导迭代式的多智能体优化流程:在渲染最终视觉布局与设计前,由特定功能智能体对演示文稿框架进行多轮批判性修订。为评估本方法,我们还构建了ArcBench基准数据集,该全新整理的学术论文-幻灯片配对基准包含丰富学科领域。实验结果表明,显式语篇建模与角色化智能体协作机制的有机结合,显著提升了生成演示文稿的叙事流畅度与逻辑连贯性。

20

自蒸馏归零:自我修订将二元奖励转化为密集监督
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Apr 13
ByYinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
5
2

当前可验证环境下的后训练方法主要分为两类。基于强化学习的可验证强化学习(RLVR)依赖二元奖励机制,虽具广泛适用性和强大潜力,但训练过程中仅能提供稀疏监督信号。蒸馏法则提供密集的词元级监督,通常需借助外部教师模型或高质量演示样本,但此类监督数据的获取成本高昂或难以获得。我们提出自蒸馏零样本方法(SD-Zero),该方法在训练样本效率上显著优于强化学习,且无需外部教师模型或高质量演示样本。SD-Zero通过训练单一模型扮演双重角色:生成器负责生成初始响应,修订器则基于该响应及其二元奖励信号生成改进版本。随后我们采用同策略自蒸馏技术,将修订器的词元分布(以生成器响应及其奖励为条件)作为监督信号,将其知识蒸馏至生成器。本质上,SD-Zero实现了将二元奖励转化为密集词元级自监督的机制。在数学推理与代码推理基准测试中,基于Qwen3-4B-Instruct和Olmo-3-7B-Instruct模型,SD-Zero在相同问题集和训练样本预算下,相比基线模型性能提升至少10%,且显著优于拒绝微调(RFT)、GRPO及自蒸馏微调(SDFT)等强基线方法。大量消融实验揭示了该算法的两大新颖特性:(a)词元级自定位能力——修订器可根据奖励信号精准识别生成器响应中需修正的关键词元;(b)迭代自进化机制——通过定期教师模型同步,将答案修订能力的提升持续反哺至生成性能的优化。

21

多模态视觉语言模型中的人为区域适应性调整
Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Apr 13
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan
4
1

尽管视觉-语言(VL)领域在多语言多模态的视觉与文本信息融合方面取得了显著成就,但目前仍缺乏专门评估视觉-语言系统中人本对齐的框架。我们提出两项贡献以填补这一空白:首先,我们提出"人为区域适应"新范式,旨在优化模型对特定区域语境的关联性,同时确保保留全局泛化能力;其次,我们提出名为"地理泛化简易实现法"(GG-EZ)的轻量级适应方法,该方法通过区域数据筛选与模型融合实现高效适配。通过对三大VL架构(大规模视觉-语言模型、文生图扩散模型和视觉-语言嵌入模型)的系统性实验,以及东南亚区域适应的案例研究,我们验证了人为区域适应的重要性与GG-EZ的有效性——该方法在东南亚文化关联性指标上提升5-15%,同时维持98%以上的全局性能并偶有超越。本研究确立了人为区域对齐作为多模态视觉-语言模型跨地域应用的基础范式,并提出了轻量高效的基准方法,在保持全局泛化能力的同时优化区域价值对齐。

22

UI-Copilot:通过工具集成策略优化推进长程图形用户界面自动化
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

Apr 15
ByZhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
4
1

基於多模態大語言模型的圖形用戶界面智能體已在複雜的界面交互任務中展現出強大能力。然而,長週期任務場景仍是重大挑戰,這類智能體常需處理超越其內在能力的任務,存在記憶衰退、進程混亂和數學幻覺等問題。為應對這些挑戰,我們提出UI-Cilot協作框架:GUI智能體專注任務執行,輕量級輔助模塊則提供按需記憶檢索與數值計算支持。通過記憶解耦技術,我們將持久化觀測數據與瞬態執行上下文分離,並訓練策略智能體根據任務需求選擇性調用檢索器或計算器兩種輔助模式。為實現有效的工具調用學習,我們提出工具集成策略優化算法,該算法通過單輪預測單獨優化工具選擇策略,並基於在線多輪推演優化任務執行策略。實驗結果表明,UI-Copilot-7B在挑戰性基準MemGUI-Bench上達到最優性能,優於GUI-Owl-7B和UI-TARS-1.5-7B等強力同規模智能體。此外,在AndroidWorld數據集上較基礎Qwen模型實現17.1%的絕對性能提升,彰顯了該框架在真實GUI任務中的強大泛化能力。

23

SkVM:通用技能编译框架 实现高效跨平台执行
SkVM: Compiling Skills for Efficient Execution Everywhere

Apr 6
ByLe Chen, Erhu Feng, Yubin Xia, Haibo Chen
3
1

随着LLM智能体逐渐将技能作为可复用的组合单元,当前各智能体平台虽能共享技能,却仅将其视为原始上下文处理,导致同一技能在不同智能体间表现不一致。这种脆弱性严重影响了技能的移植性与执行效率。 为解决该问题,我们分析了11.8万个技能库,并从传统编译器设计中获得启发:将技能视为代码,将LLM视作异构处理器。为实现可操作的技能移植,我们将技能需求分解为一系列基础能力单元,并量化评估不同模型-框架组合对这些能力的支持程度。基于能力画像,我们提出SkVM——专为可移植、高效率技能执行设计的编译与运行时系统。编译阶段,SkVM执行基于能力的编译、环境绑定与并发提取;运行时则通过JIT代码固化与自适应重编译进行性能优化。 我们在8种不同规模的LLM与3类智能体框架上评估SkVM,覆盖SkillsBench基准及典型技能任务。实验表明,SkVM能显著提升不同模型与环境下的任务完成率,同时降低最高40%的token消耗。性能方面,SkVM通过增强并行性实现最高3.2倍加速,借助代码固化将延迟降低19-50倍。

24

人工智能编程代理是否如人类般记录日志?一项实证研究
Do AI Coding Agents Log Like Humans? An Empirical Study

Apr 10
ByYoussef Esseddiq Ouatiti, Mohammed Sayagh, Hao Li, Ahmed E. Hassan
2
1

軟體日誌記錄對於維護和調試複雜系統至關重要,然而AI編碼代理如何處理這項非功能性需求仍不明確。雖然現有研究已刻畫人類的日誌記錄實踐,但AI編碼代理的行為表現及自然語言指令對其的管控效果尚屬空白。為此,我們對81個開源代碼庫中的4,550個代理提交流動請求進行實證研究,將代理的日誌記錄模式與人類基準進行對比,並分析明確日誌指令的影響。研究發現:在58.4%的代碼庫中,代理修改日誌的頻率低於人類,但其修改時日誌密度更高;明確日誌指令僅佔4.7%且效果有限,代理對建設性請求的未遵從率高達67%;人類承擔了72.5%的生成後日誌修復工作,如同"靜默清潔工"般在無明確審查反饋的情況下修復日誌與可觀測性問題。這些發現揭示了自然語言指令的雙重失效(即日誌指令稀缺與代理遵從率低),表明可能需要確定性防護機制來確保一致的日誌記錄實踐。

25

基于对数编码潜在对齐的HDR视频生成
HDR Video Generation via Latent Alignment with Logarithmic Encoding

Apr 13
ByNaomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
2
1

高动态范围(HDR)影像能够丰富且真实地再现场景辐射度,但由于其与生成模型训练时所使用的有界感知压缩数据不匹配,仍对生成模型构成挑战。一种自然的解决方案是为HDR学习新的表征方式,但这会引入额外的复杂性和数据需求。本研究提出,通过利用预训练生成模型已捕获的强大视觉先验,可以实现更简化的HDR生成方法。我们发现,电影工业管线中广泛采用的对数编码方式可将HDR影像映射至与这些模型潜在空间自然契合的分布,从而通过轻量级微调直接实现适配而无需重新训练编码器。为恢复输入中不可直接观测的细节,我们进一步引入基于相机模拟退化的训练策略,促使模型从学习到的先验中推断缺失的高动态范围内容。结合这些洞见,我们使用经过最小化适配的预训练视频模型实现了高质量HDR视频生成,在多样化场景和复杂光照条件下均取得显著成果。我们的研究表明,尽管HDR代表着完全不同的成像机制,只要选择与其学习先验相契合的表征方式,无需重新设计生成模型也能有效处理HDR内容。

26

几何上下文变换器在流式三维重建中的应用
Geometric Context Transformer for Streaming 3D Reconstruction

Apr 15
ByLin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
2
1

流式三维重建旨在从视频流中恢复相机位姿与点云等三维信息,其技术核心需兼顾几何精度、时序一致性与计算效率。受同步定位与建图(SLAM)原理启发,我们提出基于几何上下文变换器(GCT)架构的LingBot-Map——一种面向流式数据重建场景的前馈式三维基础模型。该模型的标志性特征在于精心设计的注意力机制,通过融合锚点上下文、位姿参考窗与轨迹记忆模块,分别解决坐标定位、密集几何线索提取与长程漂移校正问题。该设计在保持几何上下文丰富性的同时压缩流式状态数据量,使其能在518×378分辨率输入下以约20帧/秒的速度对超过万帧的长序列进行稳定高效推理。多基准测试结果表明,本方法在流式重建与基于迭代优化的现有方法中均展现出卓越性能。

27

ROSE:面向检索的分割增强技术
ROSE: Retrieval-Oriented Segmentation Enhancement

Apr 15
BySong Tang, Guangquan Jie, Henghui Ding, Yu-Gang Jiang
1
0

当前基于多模态大语言模型(MLLM)的分割模型(如LISA)往往难以处理新兴实体,因其无法整合最新知识。为解决这一挑战,我们提出新兴实体分割任务(NEST),重点研究两类对象的划分:(i)因未出现在训练数据中而被MLLM误识的未知实体;(ii)虽存在于模型知识库中但需借助实时外部信息才能准确识别的演进实体。为支持NEST研究,我们通过自动化流程构建了NEST基准数据集,该数据集生成与新闻相关的样本以实现全面评估。此外,我们提出检索导向的分割增强框架ROSE:该即插即用方案可增强任何基于MLLM的分割模型。ROSE包含四个核心组件:首先,互联网检索增强生成模块利用用户提供的多模态输入获取实时网络信息;其次,文本提示增强器通过最新信息和丰富背景知识提升模型对演进实体的感知能力;再者,视觉提示增强器借助网络图像补偿MLLM对未知实体认知的不足;为保持效率,WebSense模块可根据用户输入智能决策是否触发检索机制。实验结果表明,ROSE在NEST基准上的性能显著提升,以19.2的gIoU优势超越基于Gemini-2.0 Flash的强检索基线。

28

无限科学竞技场:面向科学分析的无限生成式基准框架
InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Apr 14
ByOliver Bentham, Vivek Srikumar
1
0

大型语言模型正逐渐成为科研助手,但其基于实证数据推理能力的评估仍具挑战。基于已发表研究和人工标注的基准数据集存在发表偏倚、已知知识偏倚、标签噪声及巨大存储需求等固有局限。我们提出InfiniteScienceGym——一个通过程序化生成的科学知识库基准平台,配套可验证的问答任务。该模拟器从初始种子确定性地生成包含逼真目录结构、文件及表格数据的自包含知识库,并由特权问答生成器同时产生可回答与不可回答问题及其精确答案。这种设计使得在受控环境中评估证据驱动推理、答案弃选及工具辅助分析成为可能,且无需分发大型静态语料库。通过针对传统基准的盲点与失效模式,InfiniteScienceGym弥补了仅依赖已公开数据集的评估缺陷。对专有模型和开源模型的测试表明:当前模型整体准确率最高不超过45%,识别不可回答问题仍是主要薄弱环节,且更强模型倾向于更有效地使用工具而非单纯消耗更多计算标记。

29

移动GUI智能体面临的现实威胁:我们真的准备好了吗?
Mobile GUI Agents under Real-world Threats: Are We There Yet?

Apr 14
ByGuohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
1
1

近年来,基于大语言模型的移动端图形用户界面智能体快速发展,这类智能体能够根据自然语言指令自主执行多样化的设备控制任务。随着它们在标准测试基准上的准确率不断提升,业界对大规模实际部署的期望日益高涨,目前已有多款商用智能体被早期使用者采纳。然而,我们是否真的做好了将GUI智能体作为系统基础组件集成到日常设备中的准备?我们认为当前缺乏一项重要的部署前验证环节——检验这些智能体能否在现实威胁下保持性能稳定。与现有基于简单静态应用内容的通用测试基准(为确保不同测试间环境一致性而不得不如此设计)不同,真实世界应用充斥着来自不可信第三方的内容,例如广告邮件、用户生成的帖子和媒体等。为此,我们引入了可扩展的应用内容植入框架,支持对现有应用进行灵活定向的内容修改。基于该框架,我们创建了包含动态任务执行环境和静态挑战性GUI状态数据集的测试套件。动态环境涵盖122项可复现任务,静态数据集包含从商业应用中构建的3000余个场景。我们对开源和商用GUI智能体进行了实验验证,发现所有被测智能体均会因第三方内容出现性能显著下降,在动态和静态环境中的平均误导率分别达到42.0%和36.1%。该框架与测试基准已发布于https://agenthazard.github.io。

30

语言模型学什么及何时学?隐性课程假说探析
What do Language Models Learn and When? The Implicit Curriculum Hypothesis

Apr 9
ByEmmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
1
0

大型语言模型(LLMs)能够执行极其复杂的任务,然而在预训练过程中这些能力如何逐步形成的细粒度细节仍不甚明晰。基于验证损失的缩放定律揭示了模型如何随算力增加而改进,但未能说明其按何种顺序习得何种技能。为解决这一问题,我们提出"隐性课程假说":预训练过程在不同模型和数据组合中遵循着一种可组合且可预测的课程规律。我们通过设计一套涵盖检索、形态转换、指代消解、逻辑推理和数学运算的简单可组合任务来验证该假说。基于这些任务,我们追踪了参数量从4.1亿至130亿的四个模型族的能力涌现点。研究发现,模型达到固定准确率阈值的涌现顺序具有显著一致性(45组模型对的相关系数ρ=0.81),且复合任务大多在其组成任务掌握后涌现。进一步发现这种结构被编码于模型表征中:具有相似函数向量表征的任务在训练过程中也呈现相似的发展轨迹。通过利用任务集衍生的表征空间,我们能在预训练全程有效预测未参与训练的简单组合任务的发展轨迹(各模型R²介于0.68-0.84),而无需事先评估这些任务。这些结果表明,预训练过程比损失曲线所揭示的更具结构性:技能以组合顺序涌现,该顺序在不同模型间保持一致,并可通过模型内部表征进行解读。

Apr 15
Apr 16
Apr 17