ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

技能一:基於強化學習的技能增強型智能體統一演化
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

May 7
ByYaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang
53
1

持續性技能庫允許語言模型代理跨任務重複使用成功策略。維護此類技能庫需要三項相互耦合的能力:代理需選擇相關技能、在執行過程中運用技能,並從經驗中提煉新技能。現有方法往往孤立地優化這些能力或使用分離的獎勵來源,導致部分能力進化失衡且相互衝突。我們提出Skill1框架,該框架通過單一策略共同演化技能選擇、運用與提煉,以實現共享的任務目標。該策略生成查詢以搜索技能庫,對候選技能重新排序後選定一項,基於該技能解決任務,並從執行軌跡中提煉新技能。所有學習均源自單一的任務結果信號:其低頻趨勢為技能選擇提供依據,而高頻波動則驅動技能提煉。在ALFWorld和WebShop上的實驗表明,Skill1優於先前的基於技能和強化學習的基準方法。訓練動態證實了三項能力的協同演化,消融實驗則顯示移除任一獎勵信號都會損害演化效果。

2

超越語義相似性:透過直接語料庫互動重新思考能動性搜尋的檢索機制
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3
ByZhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
45
2

當代檢索系統(無論是詞彙型或語義型)皆透過固定的相似性介面來呈現語料庫,將存取過程壓縮為單一的前置檢索步驟後再進行推理。這種抽象化設計雖具效率,但在智能代理搜索場景中卻成為瓶頸:精確的詞彙約束、稀疏線索的組合驗證、局部上下文檢查以及多步驟假設優化等操作,很難通過調用傳統現成檢索器實現,且早期被過濾的證據無法透過下游更強大的推理過程恢復。智能代理任務更凸顯此局限,因為其要求代理協調多個步驟,包括發現中間實體、整合薄弱線索,以及在觀察部分證據後調整計劃。 為突破此限制,我們研究直接語料庫交互(DCI)方法,讓代理通過通用終端工具(如grep、文件讀取、Shell命令、輕量腳本)直接搜索原始語料庫,無需依賴任何嵌入模型、向量索引或檢索API。這種方法無需離線索引,能自然適應動態變化的本地語料庫。在信息檢索基準測試和端到端智能代理搜索任務中,此簡潔方案在多個BRIGHT和BEIR數據集上顯著超越強勁的稀疏檢索、稠密檢索及重排序基線模型,並在BrowseComp-Plus和多跳問答任務中實現高準確率,且完全不依賴傳統語義檢索器。我們的結果表明:隨著語言代理能力增強,檢索質量不僅取決於推理能力,更取決於模型與語料庫交互介面的解析度。DCI由此為智能代理搜索開闢了更廣闊的介面設計空間。

3

連續潛在擴散語言模型
Continuous Latent Diffusion Language Model

May 7
ByHongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
43
4

大型語言模型在自迴歸範式下已取得顯著成就,但高品質文本生成未必需要拘泥於固定從左到右的順序。現有替代方案仍難以同時實現生成效率、可擴展表徵學習與有效的全域語義建模。我們提出Cola DLM——一種分層潛在擴散語言模型,通過層級化信息分解框架重構文本生成流程。該模型首先通過文本變分自編碼器學習穩定的文本-潛在映射,繼而利用塊因果DiT在連續潛在空間中建模全域語義先驗,最終通過條件解碼生成文本。從統一的馬爾可夫路徑視角看,其擴散過程執行的是潛在先驗傳輸而非詞元級觀測恢復,從而將全域語義組織與局部文本實現分離。這種設計產生了更靈活的非自迴歸歸納偏置,支持連續空間中的語義壓縮與先驗擬合,並能自然擴展至其他連續模態。通過涵蓋4個研究問題、8項基準測試、嚴格匹配的約20億參數自迴歸與LLaDA基線模型,以及擴展至約2000 EFLOPs的規模曲線實驗,我們確定了Cola DLM的有效整體配置,並驗證了其在文本生成領域的強勁擴展特性。綜合來看,研究結果確立了分層連續潛在先驗建模作為嚴格詞元級語言建模的原理性替代方案,其中生成質量與擴展行為可能比似然度更能反映模型能力,同時也為離散文本與連續模態的統一建模指明瞭具體路徑。

4

MiA-Signature:用於長文本理解的全局激活近似方法
MiA-Signature: Approximating Global Activation for Long-Context Understanding

May 7
ByYuqing Li, Jiangnan Li, Mo Yu, Zheng Lin, Weiping Wang, Jie Zhou
37
2

認知科學研究日益表明,可報告的意識存取與分佈式記憶系統的全局激發相關,但這種激活僅能部分獲取,因為個體無法直接存取或枚舉所有被激活的內容。這種張力揭示了一種合理機制:認知可能依賴於一種壓縮表徵,用以近似模擬激活對下游處理的全局影響。受此啟發,我們提出「心智景觀激活特徵」的概念,即由查詢誘導的全局激活模式的壓縮表徵。在大型語言模型系統中,此概念通過基於子模函數的高層概念選擇來實現,這些概念能覆蓋被激活的語境空間,並可選地通過工作記憶進行輕量級迭代更新來精煉。最終產生的心智景觀激活特徵作為條件信號,既能近似完整激活狀態的效果,又保持計算上的可處理性。將心智景觀激活特徵整合至檢索增強生成和智能體系統後,在多項長上下文理解任務中均實現了持續的性能提升。

5

Ragu團隊於SemEval-2026任務8:基於法官協調的LLM集成框架中Meno與多智能體協作的忠實多輪回應生成研究
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

May 6
ByIvan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov
35
4

我們在SemEval-2026 Task~8: MTRAGEval競賽中,提出了針對任務B(基於參考文獻的生成)的獲勝系統。該方法採用七種大型語言模型的異質性集成方案,結合兩種提示變體,並透過GPT-4o-mini評判器為每個實例選擇最佳候選結果。我們在26支參賽隊伍中排名第一,達成0.7827的條件化調和平均數,顯著超越最強基線模型(gpt-oss-120b, 0.6390)。消融實驗表明,模型家族、規模與提示策略的多樣性至關重要,集成系統始終優於單一模型。我們同時發佈Meno-Lite-0.1——一個具備優異成本效益比的70億參數領域適應模型,並對MTRAGEval數據集進行分析,指出標註侷限性與改進方向。程式碼已公開:https://github.com/RaguTeam/ragu_mtrag_semeval

6

MARBLE:擴散強化學習中的多面向獎勵平衡
MARBLE: Multi-Aspect Reward Balance for Diffusion RL

May 7
ByCanyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li, Chunhua Shen
33
2

強化學習微調已成為對齊擴散模型與人類偏好的主流方法。然而圖像評估本質上是多維度任務,需要同時優化多項評估標準。現有方法通過為每個獎勵訓練專用模型、優化加權總和獎勵R(x)=∑k wk Rk(x),或採用手工設計的階段式順序微調來處理多重獎勵。這些方法要么無法產生可聯合訓練所有獎勵的統一模型,要么需要耗費大量人工調優的順序訓練。我們發現問題根源在於使用簡單的加權總和獎勵聚合方式。這種方法存在樣本級別失配問題:多數訓練軌跡都是專項樣本,對某些獎勵維度信息豐富卻與其他維度無關,導致加權求和稀釋了其監督作用。為解決此問題,我們提出MARBLE(多維度獎勵平衡)框架,通過梯度空間優化維護各獎勵的獨立優勢估計器,計算每項獎勵的策略梯度,並通過求解二次規劃問題將其協調為單一更新方向,無需人工調節獎勵權重。我們進一步提出利用DiffusionNFT損失函數仿射結構的攤銷化方案,將每步計算成本從K+1次反向傳播降至接近單獎勵基線水平,並結合平衡係數的指數移動平均平滑技術,有效抵禦瞬時單批次波動對更新的影響。在配備五項獎勵的SD3.5 Medium模型上,MARBLE能同步提升所有五個獎勵維度,將加權求和時80%小批次中最差對齊獎勵的梯度餘弦值從負轉正,且訓練速度達到基線的0.97倍。

7

何時信賴想像力:世界行動模型的自適應行動執行
When to Trust Imagination: Adaptive Action Execution for World Action Models

May 7
ByRui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
33
2

世界行動模型(WAMs)近期已成為機器人操作領域中極具前景的範式,其特點在於能同步預測未來的視覺觀測結果與動作序列。然而,現有WAMs通常在每次模型推理後執行固定數量的預測動作,這使得機器人無法判斷其想像的未來是否與實際物理執行過程保持一致。本研究將自適應WAM執行定義為未來-現實驗證問題:當WAM預測的未來保持可靠時,機器人應延長執行時長;當現實偏離想像時,則應提前重新規劃。為此,我們提出未來前向動力學因果注意力(FFDC)——一種輕量級驗證器,能聯合推理預測的未來動作、預測的視覺動力學、真實觀測數據及語言指令,從而評估剩餘動作序列的可信度。FFDC通過預測與觀測一致性實現自適應動作塊大小的湧現效果,在保持長時程執行效率的同時,恢復機器人在密集接觸或高難度階段的響應能力。我們進一步引入混合時域訓練法,以增強自適應執行對長時程軌跡的覆蓋能力。在RoboTwin基準測試與真實環境中的實驗表明,本方法實現了強健的魯棒性-效率平衡:在RoboTwin上,相較短時塊基準方法,WAM前向傳遞次數減少69.10%,執行時間降低34.02%,成功率提升2.54%;在真實環境實驗中,成功率更提升35%。

8

連續時間分佈匹配用於少步擴散蒸餾
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

May 7
ByTao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
22
3

步長蒸餾已成為加速擴散模型的主流技術,其中分佈匹配蒸餾(DMD)和一致性蒸餾是兩大代表性範式。一致性方法通過在完整PF-ODE軌跡上強制自一致性來引導模型朝向乾淨數據流形,而原始DMD僅依賴於少數預定義離散時間步的稀疏監督。這種受限的離散時間公式與反向KL散度的模式聚焦特性容易導致視覺偽影和過度平滑的輸出,通常需要引入複雜輔助模塊(如GANs或獎勵模型)來恢復視覺保真度。本文提出連續時間分佈匹配(CDM),首次將DMD框架從離散錨點遷移至連續優化。CDM通過兩項連續時間設計實現突破:首先用隨機長度的動態連續調度替代固定離散調度,使分佈匹配在採樣軌跡的任意點生效而非僅限於少數固定錨點;其次提出連續時間對齊目標,通過學生速度場外推的潛變量進行主動離軌跡匹配,從而提升泛化能力並保留細膩視覺細節。在SD3-Medium和Longcat-Image等不同架構上的大量實驗表明,CDM無需複雜輔助目標即可在少步圖像生成中實現極具競爭力的視覺保真度。程式碼已開源於https://github.com/byliutao/cdm。

9

SkillOS:面向自我演化智能體的技能策展學習系統 SkillOS:為自我演化智能體設計的技能策展學習框架
SkillOS: Learning Skill Curation for Self-Evolving Agents

May 7
BySiru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
21
1

基於大型語言模型的智慧體正日益被部署來處理串流任務,但它們往往仍是單次性的問題解決者,未能從過往互動中學習。從經驗中提煉的可重複技能為自我演化提供了天然基礎,而高品質的技能策集成為關鍵瓶頸。現有方法要么依賴人工技能策集,要么採用啟發式技能操作規則,要么僅針對短視野的技能操作進行訓練。然而,這些方法仍難以從間接且延遲的回饋中學習複雜的長期策集策略。為解決這一挑戰,我們提出SkillOS——一種面向自我演化智慧體技能策集的經驗驅動強化學習訓練方案。SkillOS將檢索應用技能的凍結執行器與可訓練技能策集器配對,後者根據累積經驗更新外部技能庫。為提供策集學習信號,我們設計了複合獎勵機制,並基於技能相關的任務依賴關係對分組任務流進行訓練:前期軌跡更新技能庫,後續相關任務則評估這些更新。在多輪智慧體任務和單輪推理任務中,SkillOS在效能與效率上均持續超越無記憶架構及強記憶基線模型,且所學技能策集器能泛化至不同執行器架構與任務領域。進一步分析表明,學習後的策集器能產生更具針對性的技能使用方式,而技能庫中的技能會逐漸演化為結構更豐富的Markdown文件,編碼出更高層次的元技能。

10

荒诞有益:提示空间扰动拓展推理探索
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

May 7
ByLanglin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
20
2

可验证奖励的强化学习,特别是群组相对策略优化(GRPO),显著提升了大型语言模型(LLMs)的推理能力。然而在复杂任务中,GRPO常遭遇"零优势困境":当针对某个查询的所有采样轨迹均失败时,相对优势会坍缩为零。这导致模型在这些问题上失去有效的训练信号,造成训练数据和计算资源的浪费。虽然增加这些问题的采样预算是一种常见补救措施,但静态采样策略本质上限制了推理探索,制约了成功率。本文提出探索性乱数扰动(LoPE),通过简单而有效的训练框架突破这一探索瓶颈。我们认为,与任务无关的提示空间扰动足以改变模型的输出分布,从而为难题开启正交的推理路径。具体而言,LoPE在重新采样前将随机组合的乱数假文词汇(一种伪拉丁占位文本)序列附加至提示词前端。在1.7B、4B和7B模型上的实验表明,LoPE显著优于原始提示词的重复采样。进一步分析显示,其他基于拉丁语的低困惑度随机序列同样能产生有效扰动。我们的研究结果确立了LoPE作为扩展LLM强化学习探索范围的强基准方法。

11

大型基础模型中的视听智能
Audio-Visual Intelligence in Large Foundation Models

May 5
ByYou Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
17
2

视听智能(AVI)已成为人工智能的核心前沿领域,通过融合听觉与视觉模态,使机器能够感知、生成并交互于多模态现实世界。在大规模基础模型时代,音频与视觉的联合建模变得日益关键——不仅限于理解任务,更涵盖动态时序信号的可控生成与推理。近期如Meta MovieGen和谷歌Veo-3等突破性进展,凸显了产业界与学术界对基于海量多模态数据的统一音视架构的聚焦。然而尽管发展迅速,该领域研究仍呈现碎片化态势:任务类型繁杂、分类标准不一、评估方法各异,阻碍了系统化比较与知识整合。本文首次通过大规模基础模型的视角对AVI进行全面综述,建立了覆盖理解(如语音识别、声源定位)、生成(如音频驱动视频合成、视频转音频)与交互(如对话式、具身式或智能体接口)三大范畴的统一分类体系。我们系统梳理了模态标记化、跨模态融合、自回归与扩散生成、大规模预训练、指令对齐及偏好优化等方法论基础,并整合代表性数据集、基准测试与评估指标,实现跨任务家族的结构化对比,同时揭示了同步性、空间推理、可控性与安全性等开放挑战。通过将这一快速扩张的领域整合为连贯框架,本综述旨在为大规模AVI的未来研究奠定基础性参考。

12

StraTA:基于战略轨迹抽象增强的智能体强化学习激励机制
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

May 7
ByXiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
10
1

大型语言模型(LLMs)作为交互式智能体的应用日益广泛,但针对长周期决策的优化仍存在挑战——当前方法主要依赖被动响应模式,这削弱了长轨迹中的探索能力与信用分配效能。本研究提出战略轨迹抽象框架(StraTA),通过将显式的轨迹级策略引入智能体强化学习(RL)来简化该问题。StraTA从初始任务状态中采样生成精简策略,以此策略为条件指导后续行动,并采用分层GRPO式滚动设计联合训练策略生成与动作执行模块,同时通过多样化策略滚动与关键性自我评判机制进一步强化性能。在ALFWorld、WebShop和SciWorld平台上的实验表明,StraTA在样本效率和最终性能上均稳定优于现有强基线模型:在ALFWorld中达到93.1%的成功率,在WebShop中取得84.2%的得分,在SciWorld上更以63.5%的综合评分超越了前沿闭源模型的表现。

13

借助专业智能体进行自动研究,开发出高效且非平凡的训练方案
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

May 7
ByJingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong
10
2

我们将自动化研究视为一个由外部度量驱动的封闭式实证循环。每个提交的试验都包含假设、可执行的代码修改、评估方持有的结果,以及影响后续提案的反馈。该系统的输出并非生成的论文或单一模型检查点,而是由提案、代码差异、实验数据、评分和失败标签构成的可审计轨迹。我们通过专业智能体实例化这一循环,这些智能体划分方案空间并在试验间共享经度量的传承谱系。核心实证发现表明:传承反馈能使智能体将评估结果(包括系统崩溃、预算超支、规模超标和精度门槛未达标等情况)转化为后续程序级的方案修订,而非一次性建议。在一次性设置并启动后,经过1,197次主线试验及600次参数优化对照试验,人类在搜索过程中未介入提案选择、方案修改、评分覆写或失败试验修复。在三条主线实验中,同一提交-试验循环将参数优化验证集的每字节位数降低0.81%,使NanoChat-D12核心指标提升38.7%,并将CIFAR-10 Airbench96的挂钟时间减少4.59%,各项任务均由其专属外部评估器及合规性检查进行度量。轨迹记录包含对157项主线提交内容的严格架构域审计,以及程序重写案例(如NanoChat注意力内核路径变更)。在此范围内,该循环能自主编写代码、提交实验、吸收反馈、在各自环境中应用并融合已知技术,持续改进公共初始方案。

14

A^2TGPO:基于自适应轮次裁剪的智能体轮次分组策略优化
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

May 7
ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
8
3

针对智能体大语言模型(LLM)的强化学习通常依赖于稀疏的轨迹级结果奖励,这导致难以评估多轮交互中单个工具调用的贡献。现有的过程功劳分配方法要么依赖引入额外消耗的外部过程奖励模型,要么采用基于树结构的推演方法——后者仅能重新分配结果信号却限制了轨迹多样性。一种有前景的替代方案是利用策略对真实结果预测概率的逐轮变化(称为信息增益)作为内在过程信号,无需外部评估器。然而,现有在RL训练循环中利用IG信号的研究面临三个系统性挑战:跨异质位置语境的轮次归一化会扭曲单轮贡献的相对评估;可变项数的累积导致优势值随轨迹深度漂移;固定裁剪范围对IG信号差异巨大的轮次实施相同策略更新。本文提出A²TGPO(基于自适应轮次裁剪的智能体轮组策略优化),保留IG作为内在信号但重新设计其归一化、累积与使用机制:(i)轮组归一化:在每组(提示,轮次索引)内部对IG归一化,使每轮仅与同交互深度的轮次比较;(ii)方差重缩放折扣累积:将累积归一化IG除以累计项数的平方根,保持不同轮次位置的优势值可比性;(iii)自适应轮次裁剪:根据归一化IG动态调整每轮裁剪范围,对信息量大的轮次拓宽更新区域,对信息量小的轮次收窄更新范围。

15

强化学习能否教会大语言模型长程推理?表达力是关键
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

May 7
ByTianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov
8
3

儘管強化學習(RL)已被應用於改進大語言模型(LLM)的推理能力,但由於缺乏可控、可擴展的環境,針對訓練規模如何隨任務難度變化的系統性研究一直受阻。為此,我們提出ScaleLogic——一個合成邏輯推理框架,能夠獨立控制兩個難度維度:所需證明規劃的深度(即決策視野)以及底層邏輯的表達能力。該框架支持從僅含蘊含關係的簡單邏輯(「若-則」)到更具表達力的一階推理(包含「與」「或」「非」及全稱量化「對於所有」)的廣泛邏輯體系。通過此框架,我們發現RL訓練計算量T隨推理深度D呈冪律關係(T ∝ D^γ, R² > 0.99),且縮放指數γ隨邏輯表達力的增強從1.04單調遞增至2.60。在數學與通用推理下游基準測試中,相較低表達力設定,高表達力訓練不僅帶來更大的性能提升(最高達+10.66分),還展現出更高效的計算遷移效率,這表明模型下游遷移效果不僅取決於訓練量,更與訓練內容密切相關。我們進一步驗證該冪律關係在多種RL方法中普遍成立,而基於課程學習的訓練能顯著提升縮放效率。

16

ReflectDrive-2:基于强化学习对齐的离散扩散驱动自编辑框架
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

May 6
ByHuimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan
6
2

我们推出ReflectDrive-2——一种配备独立动作专家的掩码离散扩散规划器,该系统将自动驾驶规划表示为离散轨迹令牌,并通过并行掩码解码生成。这种离散令牌空间实现了原位轨迹修订功能:AutoEdit无需辅助优化网络,即可使用同一模型重写选定令牌。为训练此能力,我们采用两阶段流程:首先沿纵向进程和横向航向构建专家轨迹的结构感知扰动,并监督模型恢复原始专家轨迹;随后通过强化学习对决策-起草-反思的全流程进行微调,将最终驾驶奖励分配给编辑后的轨迹,并通过全流程转移传播策略梯度信用。全流程强化学习被证明对起草与编辑的耦合至关重要:仅监督训练时,推理阶段的AutoEdit至多提升PDMS指标0.3分,而强化学习将其增益提高至1.9分。我们还协同设计了高效的反射解码栈,结合共享前缀KV复用、交替步进解码与端侧融合解掩码技术。在NAVSIM基准测试中,ReflectDrive-2在纯视觉输入下达到91.0 PDMS,六选一先知模式下达94.8 PDMS,在NVIDIA Thor平台上的平均延迟仅为31.8毫秒。

17

TabEmbed:面向表格理解的通用嵌入基准与学习框架
TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

May 6
ByMinjie Qiang, Mingming Zhang, Xiaoyi Bao, Xing Fu, Yu Cheng, Weiqiang Wang, Zhongqing Wang, Ningtao Wang
6
2

基础模型已为自然语言处理建立了统一表征范式,然而该范式在表格数据领域仍鲜有探索。现有方法存在根本性局限:基于大语言模型的方法缺乏检索兼容的向量输出,而文本嵌入模型往往难以捕捉表格结构与数值语义。为弥补这一空白,我们首先提出表格嵌入基准(TabBench),这是一个用于评估嵌入模型表格理解能力的综合测试套件。随后我们推出TabEmbed——首个在共享嵌入空间中统一表格分类与检索任务的通用嵌入模型。通过将多样化表格任务重构为语义匹配问题,TabEmbed采用具备正样本感知的难负例挖掘策略进行大规模对比学习,从而精准辨识细粒度的结构与数值特征。在TabBench上的实验结果表明,TabEmbed显著优于当前最先进的文本嵌入模型,为通用表格表征学习确立了新基准。代码与数据集已公开于https://github.com/qiangminjie27/TabEmbed 和 https://huggingface.co/datasets/qiangminjie27/TabBench。

18

UniPool:面向专家混合模型的全局共享专家池
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

May 7
ByMinbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
6
3

现代混合专家模型(MoE)架构遵循严格的逐层规则分配专家容量:每个Transformer层拥有独立的专家集合。这种惯例将深度扩展与专家参数线性增长相耦合,并假设每层都需要独立的专家容量。然而,最新分析及我们的路由探针实验对此分配规则提出了挑战:在多个生产级MoE模型中,将深层学习到的top-k路由器替换为均匀随机路由,仅导致下游任务准确率下降1.0-1.6个点。基于这种冗余性发现,我们提出UniPool架构,通过将逐层专家所有权替换为由独立逐层路由器访问的共享专家池,将专家容量视为全局架构预算。为实现共享下的稳定平衡训练,我们引入池级辅助损失函数以平衡整个专家池的利用率,并采用NormRouter实现面向共享专家池的稀疏且尺度稳定的路由。在基于Pile数据集30B词元训练的五个LLaMA架构模型规模(1.82亿至9.78亿参数)上,UniPool相较匹配的标准MoE基线持续提升验证集损失和困惑度指标。在这些规模下,UniPool将验证损失最大降低0.0386。除损失提升外,实验结果还表明池大小可作为显式的深度扩展超参数:仅使用标准专家参数预算41.6%-66.7%的缩减池UniPool变体,在测试规模下达到或超越逐层MoE性能。这证明在共享池设计下,专家参数无需随深度线性增长,而是可以通过次线性增长实现比标准MoE更优的效能。进一步分析表明UniPool的优势可与更细粒度的专家分解策略协同增效。

19

SwiftI2V:基于条件分段生成的高效高分辨率图像转视频技术
SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

May 7
ByYaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen
5
2

高分辨率图像到视频(I2V)生成技术旨在合成逼真时序动态的同时,保留输入图像的精细外观细节。在2K分辨率下,该任务变得极具挑战性,现有解决方案存在诸多缺陷:1)端到端模型往往存在内存占用过高和延迟难以承受的问题;2)基于通用视频超分技术的级联式低分辨率生成方案容易产生细节失真并偏离输入图像特有的局部结构,因为超分阶段未显式关联输入图像条件。为此,我们提出SwiftI2V这一面向高分辨率I2V的高效框架。该框架采用广泛使用的两阶段设计,首先生成低分辨率运动参考以降低token计算成本并减轻建模负担,随后在运动引导下执行强图像条件约束的2K合成,从而在可控开销内还原输入保真细节。具体而言,为提升生成可扩展性,SwiftI2V引入条件分段生成技术(CSG),通过分段合成方式将单步token预算控制在可控范围内,并采用段内双向上下文交互机制以增强段间连贯性与输入保真度。在2K分辨率的VBench-I2V基准测试中,SwiftI2V在将总GPU时间缩减202倍的同时,取得了与端到端基线模型相当的性能表现。尤为突出的是,该框架可在单张数据中心级GPU(如H800)或消费级GPU(如RTX 4090)上实现实用的2K分辨率I2V生成。

20

AI协同数学家:以智能体AI加速数学研究进程
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

May 7
ByDaniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli
5
1

我们推出AI协数学家——一个供数学家互动式利用智能体进行开放性研究的操作平台。该系统经过优化,能为数学研究流程中探索性与迭代性的现实需求提供全方位支持,涵盖构思启发、文献检索、计算探索、定理证明及理论构建等环节。通过建立异步的、具状态感知的工作空间,该系统能够管理不确定性、细化用户意图、追踪失败假设,并输出原生数学成果,从而模拟人类协作研究模式。在早期测试中,AI协数学家已协助研究人员解决开放性问题、识别新研究方向,并发现被忽视的文献线索。除了展示高度交互式的人工智能辅助数学发现新范式,该系统还在高难度问题求解基准测试中取得突破性成果——在FrontierMath第四层级测试中获得48%的得分,创下当前所有人工智能系统的最高纪录。

21

RemoteZero:零人工标注的地理空间推理系统
RemoteZero: Geospatial Reasoning with Zero Human Annotations

May 6
ByLiang Yao, Fan Liu, Shengxiang Xu, Chuanyi Zhang, Rui Min, Shimin Di, Yuhui Zheng
5
2

地理空间推理要求模型将复杂的空间语义与用户意图解析为精确的对地观测目标位置。近期研究进展已使推理路径摆脱了人工干预,允许模型自主生成推断链条。然而最终依赖依然存在:它们仍受限于人工标注的真实坐标监督。这使得推理过程实现自主化,但其空间终点仍未独立,阻碍了模型在丰富无标注遥感数据上实现真正的自我进化。为突破此瓶颈,我们提出无需边界框监督的地理空间推理框架RemoteZero。该框架的构建基于一个简单的不对称性:多模态大语言模型在验证某区域是否满足查询要求方面,通常优于直接生成精确坐标的能力。通过利用这种更强的判别能力,RemoteZero以内在语义验证取代几何监督,实现了无需边界框标注的GRPO训练。该框架进一步支持迭代式自我进化,使模型能够通过自身验证信号从无标注遥感影像中持续提升。实验表明,RemoteZero在定位任务上达到了与强监督方法相竞争的性能,印证了自验证训练模式在地理空间推理定位领域的潜力。

22

粒度轴:语言模型中社会角色的微观至宏观潜在维度
The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

May 7
ByChonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong
4
2

大型语言模型(LLMs)常被要求扮演从个体到机构等不同社会角色,但其内部表征是否真正编码了从微观个体经验到宏观组织、机构或国家层面推理的粒度差异,至今尚不明确。我们的研究表明这种编码确实存在。我们定义了基于对比的粒度轴作为宏观与微观角色隐藏状态均值的差值。在Qwen3-8B模型中,该轴线与角色表征空间的主轴(PC1)呈0.972余弦相似度对齐,并解释其52.6%的方差,表明粒度是组织提示社会角色的主导几何轴线。我们构建了涵盖五个粒度层次的75种社会角色,通过共享问题和提示变体收集了91,200条角色条件化响应,进而提取角色级隐藏状态并将其投影至该轴线。角色投影在所有五个层次均呈现单调递增趋势,且在不同网络层、提示变体、端点定义、保留数据集和评分筛选子集中保持稳定,该特性还可迁移至Llama-3.1-8B-Instruct模型。该轴线具有因果相关性:沿轴线进行激活引导会使响应粒度按预测方向变化,在允许局部响应的提示下,Llama模型的宏观评分(五分量表)从2.00升至3.17。两种模型的可控性存在差异,表明引导效果取决于各模型的默认运作机制。总体而言,我们的发现表明社会角色粒度不仅是风格化的表面特征,更是角色条件化语言模型行为中具有结构化、有序化且可因果操控的潜在方向。

23

EMO:面向涌现模块化的专家混合预训练模型
EMO: Pretraining Mixture of Experts for Emergent Modularity

May 7
ByRyan Wang, Akshita Bhagia, Sewon Min
4
1

大型语言模型通常以整体系统形式部署,即使应用仅需特定功能子集(如代码、数学或领域知识)时仍需调用完整模型。混合专家模型(MoE)表面上提供了一种替代方案——仅针对每个输入激活部分专家,但实践中发现,若将推理过程限制在特定领域的专家子集内,会导致性能严重下降。这限制了其在内存受限环境中的实用性,尤其随着模型规模增大和稀疏性增强。我们提出EMO模型,这是一种专为模块化设计的MoE架构——支持专家子集的独立使用与组合,且无需人工预设先验条件。 我们的核心思路是促使相似领域的标记(token)依赖相似的专家群组。由于同一文档内的标记通常共享领域特征,EMO限制它们从共享专家池中选择专家,同时允许不同文档使用不同的专家池。这一简单约束仅通过预训练中的文档边界划分,即可促使连贯的专家分组自然形成。我们在1万亿标记上预训练了包含10亿激活参数、140亿总参数的EMO模型。作为完整模型时,其性能与标准MoE相当。关键在于,它能实现选择性专家调用:仅保留25%(12.5%)专家时,性能绝对跌幅仅1%(3%),而同等条件下标准MoE模型已失效。 进一步研究发现,EMO中的专家子集在语义层面(如数学、代码等领域)呈现专业化特征,这与标准MoE中观察到的底层句法专业化形成鲜明对比。总体而言,我们的研究成果为大型稀疏模型的模块化、内存高效部署开辟了新路径,并为可组合架构创造了新的可能性。

24

数据受限训练的规范性缩放法则
Prescriptive Scaling Laws for Data Constrained Training

May 2
ByJustin Lovelace, Christian Belardi, Srivatsa Kundurthy, Shriya Sudhakar, Kilian Q. Weinberger
3
1

训练算力的增长正日益超越高质量数据的可获得性,这使得核心挑战从优化算力分配转向如何从有限数据中提取最大价值。目前广泛采用的Chinchilla缩放定律假设每个训练标记都是唯一的,这限制了其在数据受限场景下指导预训练决策的能力。我们通过简单的加性过拟合惩罚项对重复训练下的超额损失进行建模,发现该模型能准确描述模型行为。我们的缩放定律提出了质变性的算力最优分配方案:超过某个临界点后,继续重复数据将适得其反,此时应将算力投入模型容量提升。实验表明,遵循本定律推荐的配置能在数据受限场景下提升性能。最后,由于我们的单参数形式将过拟合效应隔离在单一系数中,这使得不同训练配置可直接比较。案例研究表明,强权重衰减(λ=1.0)可使该系数降低约70%,这为"数据受限场景下最优权重衰减需比标准实践高一个数量级"的最新发现提供了缩放定律层面的解释。

25

KernelBench-X:面向大模型生成GPU内核的综合评估基准
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

May 6
ByHan Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu
2
3

基于大语言模型的Triton内核生成技术虽已引发广泛关注,但一个关键实证问题始终悬而未决:该技术的能力边界究竟在何处失效?其失效机理为何?我们推出KernelBench-X基准测试,通过对15个类别176项任务进行类别感知的正确性与硬件效率评估,旨在系统解答该问题。通过对五种代表性方法的系统性比较,我们获得三项核心发现:首先,任务结构对正确性的影响远超方法设计。任务类别对语义正确性的解释方差是方法差异的三倍(9.4% vs 3.3%),72%的融合任务在所有五种方法中均告失败,而数学类任务却始终保持稳定通过。其次,迭代优化能提升正确性但牺牲性能。在GEAK迭代过程中,编译成功率从52.3%升至68.8%,但平均加速比却从1.58倍降至1.44倍;新修复的内核性能持续低于始终正确的内核(第0至1轮迭代中加速比为1.16倍 vs 1.58倍)。第三,正确性不保证高效性。46.6%的正确内核慢于PyTorch即时执行基准,跨硬件加速比方差高达21.4倍。此外,量化任务虽具备一定编译成功率却完全未通过测试(0/30成功),这表明系统存在对数值计算契约的根本性误解,而非表面语法错误。这些发现预示未来进展需着眼于全局协调机制、显式数值精度建模以及硬件效率的生成融合。代码已开源:https://github.com/BonnieW05/KernelBenchX

26

平衡聚合:理解与修正GRPO中的聚合偏差
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Apr 14
ByZhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu
2
1

可验证奖励强化学习(RLVR)已成为提升大语言模型推理与代码生成能力的核心范式,其中GRPO风格训练因其简洁高效被广泛采用。然而,一个关键设计选择尚未得到充分探索:采样组内如何聚合词元级策略梯度项。标准GRPO采用序列聚合法,而近期研究主张词元聚合法作为更优替代。我们证明这两种规则会引发不同的优化偏差:词元聚合会导致符号长度耦合,而序列聚合通过序列级等权处理隐式降低长响应的权重。为解决这一矛盾,我们提出平衡聚合法(BA)——一种可直接替换的简易方案,其分别在正负子集内计算词元级均值,再通过基于序列数量的权重进行组合。基于Qwen2.5-Math-7B和Qwen3-1.7B模型在DAPO-17k与Polaris数据集上的实验表明,在六项推理与代码生成基准测试中,BA相较标准词元与序列聚合法能持续提升训练稳定性与最终性能。进一步分析揭示,词元与序列聚合的相对有效性主要受响应长度变异度及正负样本长度差调控,凸显出聚合规则是GRPO风格RLVR中至关重要的设计维度。

27

变压器中隐含演绎推理的缩放特性
The Scaling Properties of Implicit Deductive Reasoning in Transformers

May 5
ByEnrico Vompa, Tanel Tammet
2
2

我们深入研究了深度受限Transformer在霍恩子句上的隐式演绎推理扩展特性。通过系统性地将可证明性与伪特征解耦并强化算法对齐,发现采用双向前缀掩码的足够深层模型中,隐式推理在不同图拓扑结构和问题宽度下均能逼近显式思维链的性能表现,但深度外推仍需依赖思维链方法。

28

GeoStack:视觉语言模型中拟阿贝尔知识组合的框架
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs

May 7
ByPranav Mantini, Shishir K. Shah
1
1

我们致力于解决视觉语言模型(VLM)中的知识组合难题——传统跨领域或多任务的知识累积通常会导致灾难性遗忘。本文提出几何堆叠(GeoStack)这一模块化框架,通过将独立训练的领域专家模型组合成统一模型,在适配器流形上施加几何与结构约束,从而确保基础模型的底层知识得以完整保留。我们更通过数学证明揭示了权重折叠特性:无论集成专家数量如何,模型均能实现恒定时间复杂度的推理(O(1))。在多领域适应与类增量学习的实验结果表明,GeoStack不仅能显著缓解灾难性遗忘,更为长期知识组合提供了高效机制。代码已开源:https://github.com/QuantitativeImagingLaboratory/GeoStack。

29

当基准缺失:无真实标签条件下LLM安全评分比较的验证方法
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7
BySushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
1
2

在许多部署场景中,当相关语言、领域或监管体系尚未建立标注基准时,必须对候选语言模型进行安全性比较。我们将此情境形式化为无基准比较性安全评分,并明确了基于场景的审计可作为部署证据的契约条件。评分仅在固定场景包、评估标准、审计员、评判员、抽样配置和重运行预算下有效。由于缺乏标注数据,我们采用工具效度链替代真实一致性:包括对受控安全态与消除态对比的响应度、目标驱动方差相对于审计员与评判员人为误差的主导性,以及跨重运行的稳定性。 我们在本地优先的评分工具SimpleAudit中实例化了该效度链,并基于挪威语安全包进行验证。安全目标与消除目标以0.89至1.00的AUROC值实现分离,目标身份是主要方差来源(η²≈0.52),且严重性分布在十次重运行后趋于稳定。将同一效度链应用于Petri工具表明其可同时兼容两种工具。实质性差异产生于效度链上游的声明-契约执行与部署适配环节。挪威公共部门采购案例中对比Borealis与Gemma 3模型的结果显示:更安全的模型取决于场景类别和风险度量指标。因此,评分、匹配差值、临界比率、不确定性及所用审计员与评判员信息必须共同报告,而非简化为单一排名。

30

生成式量子启发科莫哥洛夫-阿诺德特征求解器
Generative Quantum-inspired Kolmogorov-Arnold Eigensolver

May 6
ByYu-Cheng Lin, Yu-Chao Hsu, I-Shan Tsai, Chun-Hua Lin, Kuo-Chung Peng, Jiun-Cheng Jiang, Yun-Yuan Wang, Tzung-Chi Huang, Tai-Yue Li, Kuan-Cheng Chen, Samuel Yen-Chi Chen, Nan-Yow Chen
1
1

高性能计算(HPC)在耦合经典生成模型、量子电路模拟及选择性组态相互作用后处理的可扩展量子化学工作流中日益重要。我们提出生成式量子启发科尔莫戈罗夫-阿诺德特征求解器(GQKAE),这是生成式量子特征求解器(GQE)在量子化学领域的参数高效扩展方案。GQKAE采用混合量子启发科尔莫戈罗夫-阿诺德网络模块,取代了GPT风格生成式特征求解器中参数密集的前馈网络组件,构建出紧凑的HQKANsformer主干架构。该方法在保持自回归算符选择与量子选择性组态相互作用评估流程的同时,利用单量子比特数据重上传激活模块实现表达性非线性映射。在H4、N2、LiH、C2H6、H2O及H2O二聚体上的数值基准测试表明,GQKAE在达到与基于GPT的GQE架构相当化学精度的同时,将可训练参数和内存占用减少约66%,并提升实时性能。对于N2和LiH等强关联体系,GQKAE还改善了收敛行为并降低了最终能量误差。这些结果表明量子启发科尔莫戈罗夫-阿诺德网络能在保持电路生成质量的同时降低经典端开销,为近量子计算平台的HPC-量子协同设计提供了可扩展路径。

31

思考而后评分:视频奖励建模中的解耦推理与评分机制
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

May 7
ByYuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
1
1

近年来,生成式视频模型的发展日益依赖于训练后与测试时的规模扩展,这两者都关键取决于视频奖励模型的质量。理想的奖励模型应能预测符合人类偏好的精准奖励,并覆盖多样化场景。然而现有范式面临根本性困境:判别式奖励模型直接基于多模态大语言模型提取的特征进行奖励回归,缺乏显式推理过程,易陷入捷径学习且严重依赖海量数据扩展来实现泛化。相比之下,具备思维链推理能力的生成式奖励模型通过细粒度语义监督内化人类偏好的决策依据,展现出更优的可解释性与泛化潜力,但其自回归推理链中推理与评分机制的耦合导致了固有的优化瓶颈。为兼顾思维链推理的泛化优势并缓解耦合式训练的不稳定性,我们提出DeScore——一种训练高效且泛化能力强的视频奖励模型。该模型采用解耦的"先思考后评分"范式:首先由多模态大语言模型生成显式思维链,随后通过由可学习查询标记和回归头构成的专用判别式评分模块预测最终奖励。DeScore通过两阶段框架进行优化:(1)采用随机掩码机制的判别式冷启动确保稳健的评分能力;(2)双目标强化学习阶段分别优化思维链推理质量与校准最终奖励,使更高质量的推理直接转化为更优的模型性能。

32

### 基于扩散策略的隐式奖励恢复
Recovering Hidden Reward in Diffusion-Based Policies

May 1
ByYanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu
1
2

本文提出EnergyFlow框架,该框架通过参数化标量能量函数(其梯度为去噪场),将生成式动作建模与逆强化学习相统一。我们证明在最大熵最优性条件下,通过去噪分数匹配学习得到的评分函数可还原专家软Q函数的梯度,从而无需对抗训练即可实现奖励提取。形式上,我们证明约束学习场为保守场可降低假设复杂度并收紧分布外泛化边界。我们进一步刻画了还原奖励的可辨识性,并界定了评分估计误差如何传播至动作偏好。实验表明,EnergyFlow在多种操作任务中实现了最先进的模仿性能,同时为下游强化学习提供了优于对抗式逆强化学习方法和基于似然替代方案的有效奖励信号。这些结果证明,有效奖励提取所需的结构约束同时可作为策略泛化的有益归纳偏置。代码详见https://github.com/sotaagi/EnergyFlow。

33

Sparkle:通过解耦引导实现生动的指令驱动视频背景替换
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

May 7
ByZiyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
1
2

近年来,诸如Senorita-2M等开源项目推动了视频编辑向自然语言指令方向发展。然而当前公开数据集主要聚焦于局部编辑或风格转换,这类任务基本保留原始场景结构且易于规模化。相比之下,作为影视制作和广告等创意应用核心任务的背景替换,需要在保持准确前景-背景交互的同时合成全新的时序一致性场景,这使得大规模数据生成面临更大挑战。因此,由于高质量训练数据的匮乏,这一复杂任务至今仍未被充分探索。现有顶尖模型(如Kiwi-Edit)的性能不佳便印证了这一问题——包含该任务的主要开源数据集OpenVE-3M常生成静态且不自然的背景。本文通过溯源发现,数据合成过程中缺乏精确的背景指导是导致质量下降的主因。据此,我们设计了一个可扩展的流水线,通过解耦式生成前景与背景指导并实施严格质量过滤。基于此流水线,我们推出了包含约14万视频对的Sparkle数据集,涵盖五种常见背景替换主题,同时构建了迄今规模最大的背景替换专项评估基准Sparkle-Bench。实验表明,我们的数据集及基于其训练的模型在OpenVE-Bench和Sparkle-Bench上的性能均显著优于所有现有基线。相关数据集、评估基准及模型已在https://showlab.github.io/Sparkle/ 全面开源。

34

我们在多模态领域泛化方面取得进展了吗?一项综合性基准研究
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

May 7
ByHao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
1
2

尽管多模态领域泛化(MMDG)在提升模型鲁棒性方面日益受到关注,但现有性能提升究竟源于真正的算法进步还是评估协议不一致的假象,目前仍不明确。当前研究呈现碎片化态势,不同研究在数据集选择、模态配置和实验设置上存在显著差异。此外,现有基准主要聚焦动作识别任务,往往忽视了输入损坏、模态缺失和模型可信度等关键现实挑战。这种标准化缺失使得该领域进展难以被可靠评估。为解决此问题,我们推出首个统一全面的MMDG基准测试框架MMDG-Bench,通过对涵盖动作识别、机械故障诊断和情感分析三大任务的六个数据集实施标准化评估。该框架整合了六种模态组合、九种代表性方法及多重评估场景,除标准准确率外,系统性地评估了损坏鲁棒性、缺失模态泛化能力、误分类检测和分布外检测性能。通过在95个独特跨领域任务上训练总计7,402个神经网络,MMDG-Bench得出五项关键结论:(1)在公平比较下,近期专用MMDG方法相较ERM基线仅实现边际提升;(2)尚无单一方法能在所有数据集或模态组合中持续领先;(3)性能与理论上限存在显著差距,表明MMDG远未得到解决;(4)三模态融合并未持续优于最强双模态配置;(5)所有方法在损坏和模态缺失场景下均出现显著性能退化,部分方法还会进一步损害模型可信度。

35

EDU-CIRCUIT-HW:基于真实大学STEM课程手写解题方案的多模态大语言模型评估框架
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Apr 30
ByWeiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
1
2

多模态大语言模型(MLLMs)在革新传统教育模式和减轻教师工作负荷方面展现出巨大潜力。然而,由于缺乏真实且领域专用的基准数据集,准确解读学生不受约束的STEM学科手写解答(包含相互交织的数学公式、图表和文本推理)仍面临重大挑战。现有评估范式主要依赖下游任务(如自动评分)的结果,这类评估通常仅探查已识别内容的部分维度,难以全面捕捉MLLMs对复杂手写逻辑的整体理解能力。为弥补这一空白,我们发布了EDU-CIRCUIT-HW数据集,该数据集包含来自大学STEM课程的1300余份真实学生手写解答。通过利用经专家核验的逐字转录文本和评分报告,我们同步评估了多种MLLMs的上游识别准确度与下游自动评分性能。研究发现,MLLMs识别的手写内容中存在惊人规模的潜在错误,表明当前模型在高风险教育场景中尚未具备适用于自动评分及其他理解导向应用的可靠性。作为潜在解决方案,我们通过案例研究证明:利用已识别的错误模式进行预检与修正(仅需极少人力干预,如将3.3%的作业分配至人工评分,其余由GPT-5.1评分器处理),可有效增强部署型AI评分系统的鲁棒性。代码与数据集详见GitHub仓库:https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL。

36

PianoCoRe:组合优化版钢琴MIDI数据集
PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7
ByIlya Borovik
1
1

具備樂譜與演奏匹配的符號音樂數據集對諸多音樂信息檢索任務至關重要。然而現有資源往往存在作曲家覆蓋面窄、演奏版本單一、缺乏音符級對齊或命名格式不統一等問題。本研究推出大規模鋼琴MIDI數據集PianoCoRe,該數據集整合並優化了主流開源鋼琴數據庫,包含483位作曲家創作的5,625首樂曲的250,046個演奏版本,總時長達21,763小時。PianoCoRe採用分層發佈模式以支持不同應用場景:從大規模分析與預訓練(PianoCoRe-C及去重版PianoCoRe-B)到具備音符級樂譜對齊的表現力演奏建模(PianoCoRe-A/A*)。其中音符對齊子集PianoCoRe-A提供了迄今最大的開源對齊數據,包含1,591份樂譜與157,207個演奏版本的對應關係。除數據集外,本研究的貢獻還包括:(1)用於檢測損壞文件與類樂譜轉錄的MIDI質量分類器;(2)RAScoP對齊優化流程,可清理時序對齊錯誤並插值補全缺失音符。分析表明該優化流程能有效降低時序噪聲並消除異常速度值。此外,基於PianoCoRe訓練的表現力演奏生成模型,相較於使用原始或小型數據集訓練的模型,對未見樂曲的處理魯棒性顯著提升。PianoCoRe為新一代鋼琴表現力演奏研究提供了即用型基礎平台。

37

BioTool:增强大型语言模型生物医学能力的综合性工具调用数据集
BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

May 7
ByXin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie
0
2

尽管大型语言模型(LLMs)在通用任务上取得了成功,但在生物医学等高度专业化领域的表现仍不尽如人意。关键限制在于LLMs无法有效利用生物医学工具,而临床专家和生物医学研究人员在日常工作中高度依赖这些工具。虽然近期的通用领域工具调用数据集显著提升了LLM智能体的能力,但生物医学领域的现有研究主要依赖上下文学习,并将模型限制在少量工具集内。为弥补这一空白,我们推出了BioTool——一个专为微调LLMs设计的综合性生物医学工具调用数据集。BioTool整合了来自NCBI、Ensembl和UniProt数据库的34个常用工具,并包含7,040个经过人工验证的高质量查询-API调用对,涵盖变异学、基因组学、蛋白质组学、进化生物学和通用生物学领域。基于BioTool对40亿参数LLM进行微调后,其生物医学工具调用性能实现显著提升,甚至超越了GPT-5.1等尖端商业LLM。此外,人类专家评估表明,与未使用工具的相同LLM相比,集成经BioTool微调的工具调用器能显著提升下游答案质量,这凸显了BioTool在增强LLM生物医学能力方面的有效性。完整数据集与评估代码已发布于https://github.com/gxx27/BioTool。

38

TIDE:上下文之下,逐层洞悉令牌真意
TIDE: Every Layer Knows the Token Beneath the Context

May 7
ByAjay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Mehrdad Farajtabar, Minsik Cho
0
2

我们重新审视了现代大语言模型中一个被普遍接受但未经深入检验的设计选择:词符索引仅在输入嵌入层被查找一次,随后便被永久丢弃。这种单次注入假设引发了两种结构性问题:(i)罕见词符问题——由于词汇表的齐普夫分布特性,罕见词符嵌入因获得的累积梯度信号远少于常见词符而长期训练不足;(ii)语境坍缩问题——参数有限的模型会将分布相似的词符映射至难以区分的隐藏状态。为解决这两个问题,我们提出TIDE方法,通过嵌入记忆库增强标准Transformer:该记忆库由K个独立记忆块组成的集成系统,可将词符索引映射为与上下文无关的语义向量,这些向量经一次性计算后,通过具有可学习空值库的深度条件化softmax路由器注入每一层。我们从理论和实证两方面验证了TIDE在解决单次词符身份注入相关问题上的优势,并在多类语言建模及下游任务中实现了性能提升。

May 7
May 8