HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

38 papers found

超越语义相似性：通过直接语料交互重构智能搜索的检索机制
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3

ByZhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang

现代检索系统，无论是基于词法还是语义，都通过固定的相似性接口来呈现语料库，将访问过程压缩为推理前的单一top-k检索步骤。这种抽象机制虽然高效，但在智能体搜索场景下却成为瓶颈：精确的词法约束、稀疏线索组合、局部上下文检查以及多步骤假设优化等操作，很难通过调用传统的现成检索器实现，且早期被过滤的证据无法通过下游更强推理能力恢复。智能体任务进一步加剧了这一局限，因为它们要求智能体协调多个步骤，包括发现中间实体、整合弱线索以及在观察到部分证据后调整计划。为突破此限制，我们研究直接语料库交互（DCI）方法，使智能体能够通过通用终端工具（如grep、文件读取、shell命令、轻量脚本）直接搜索原始语料库，无需任何嵌入模型、向量索引或检索API。该方法无需离线索引，能自然适应动态演变的本地语料库。在信息检索基准测试和端到端智能体搜索任务中，这种简单设置在多个BRIGHT和BEIR数据集上显著优于强稀疏检索、稠密检索及重排序基线，并在BrowseComp-Plus和多跳问答任务中取得优异准确率，且完全不依赖传统语义检索器。我们的结果表明：随着语言智能体能力增强，检索质量不仅取决于推理能力，更取决于模型与语料库交互接口的分辨率——DCI为此开辟了更广阔的智能体搜索接口设计空间。

连续潜在扩散语言模型
Continuous Latent Diffusion Language Model

May 7

ByHongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng

大型语言模型在自回归范式下已取得显著成就，但高质量文本生成未必需要固守固定的从左到右顺序。现有替代方案仍难以同时实现生成效率、可扩展的表征学习和有效的全局语义建模。我们提出Cola DLM——一种通过层次化信息分解框架实现文本生成的分层隐扩散语言模型。该模型首先通过文本变分自编码器学习稳定的文本到隐空间的映射，接着采用块因果DiT在连续隐空间中对全局语义先验进行建模，最后通过条件解码生成文本。从统一的马尔可夫路径视角看，其扩散过程执行的是隐空间先验传输而非词元级观测恢复，从而将全局语义组织与局部文本实现相分离。这种设计产生了更灵活的非自回归归纳偏置，支持连续空间中的语义压缩和先验拟合，并能自然扩展到其他连续模态。通过涵盖4个研究问题、8个基准测试、严格匹配约20亿参数的自回归与LLaDA基线模型、以及扩展至约2000 EFLOPs的缩放曲线实验，我们确定了Cola DLM的有效整体配置，并验证了其在文本生成方面的强大缩放特性。综合来看，研究结果确立了分层连续隐空间先验建模作为严格词元级语言建模的原理性替代方案——其中生成质量与缩放特性可能比似然度更能反映模型能力，同时也为离散文本与连续模态的统一建模指明了可行路径。

技能一：基于强化学习的技能增强智能体统一演化
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

May 7

ByYaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang

持久技能库使得语言模型智能体能够在不同任务中复用成功策略。维护此类库需要三项协同能力：智能体需选择相关技能、在执行过程中运用该技能，并从经验中提炼新技能。现有方法往往孤立地优化这些能力或采用分离的奖励机制，导致局部优化与冲突演化。我们提出Skill1框架，通过训练单一策略使技能选择、运用与提炼围绕共享的任务目标协同进化。该策略生成查询语句检索技能库，对候选技能重排序后选定一项，基于该技能完成任务，并从执行轨迹中提炼新技能。所有学习均源自单一的任务结果信号：其低频趋势为技能选择提供反馈，高频波动则为技能提炼提供依据。在ALFWorld和WebShop上的实验表明，Skill1优于现有基于技能和强化学习的基线方法。训练动态验证了三项能力的协同进化，消融实验证明移除任一反馈信号都会损害进化效果。

MiA-Signature：面向长上下文理解的全局激活近似方法
MiA-Signature: Approximating Global Activation for Long-Context Understanding

May 7

ByYuqing Li, Jiangnan Li, Mo Yu, Zheng Lin, Weiping Wang, Jie Zhou

认知科学领域日益增多的研究表明，可报告的意识访问与分布式记忆系统上的全局激活相关，但这种激活仅能部分访问，因为个体无法直接访问或枚举所有被激活的内容。这种张力暗示了一种合理机制：认知可能依赖于一种紧凑的表征，该表征能近似模拟激活对下游处理的全局影响。受此启发，我们提出心智景观激活特征（MiA-Signature）的概念，即由查询引发的全局激活模式的压缩表征。在大型语言模型系统中，这通过基于子模函数的高层概念选择来实现，这些概念覆盖被激活的上下文空间，并可选择性地通过工作记忆进行轻量级迭代更新来优化。最终得到的MiA-Signature作为条件信号，能在保持计算可行性的同时近似模拟完整激活状态的效果。将MiA-Signature集成到检索增强生成和智能体系统中，在多项长上下文理解任务上实现了持续的性能提升。

RaguTeam在SemEval-2026任务8中的探索：基于法官协调的LLM集成框架下Meno与多智能体协作实现忠实多轮响应生成
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

May 6

ByIvan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov

我们在SemEval-2026任务8（MTRAGEval）的B赛道（基于参考文本的生成任务）中提出了获胜系统。该方法采用七种大语言模型的异质集成框架，结合两种提示变体，通过GPT-4o-mini裁判模块为每个实例选择最优候选结果。我们在26支参赛队伍中排名第一，实现了0.7823的条件调和平均值，显著优于最强基线gpt-oss-120b（0.6390）。消融实验表明，模型族多样性、规模差异和提示策略的异质性至关重要，集成系统始终优于任何单一模型。我们还推出了Meno-Lite-0.1——一个在成本效益权衡方面表现优异的70亿参数领域自适应模型，并对MTRAGEval数据集进行深入分析，指出标注局限性与改进方向。代码已开源：https://github.com/RaguTeam/ragu_mtrag_semeval

何时信任想象：世界行动模型的自适应行动执行
When to Trust Imagination: Adaptive Action Execution for World Action Models

May 7

ByRui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi

世界行动模型（WAMs）近期作为一种机器人操作的新范式崭露头角，其通过联合预测未来视觉观测与未来动作来实现操控。然而，现有WAMs通常在每次模型推理后执行固定数量的预测动作，导致机器人无法感知想象未来是否与实际物理执行过程保持一致。本研究将自适应WAM执行构建为未来-现实验证问题：当WAM预测的未来保持可靠时，机器人应延长执行时长；而当现实偏离想象时，则需提前重新规划。为此，我们提出未来前向动力学因果注意力机制（FFDC），该轻量级验证器能够联合推理预测的未来动作、预测的视觉动态、实时观测及语言指令，以评估剩余动作序列是否仍可被信任。FFDC通过预测-观测一致性自然涌现出自适应动作块大小，既保持了长时程执行的效率，又在接触密集或困难阶段恢复了响应能力。我们还引入混合时域训练策略，以提升自适应执行中对长时程轨迹的覆盖能力。在RoboTwin基准测试和真实环境中的实验表明，本方法实现了强健的鲁棒性-效率平衡：在RoboTwin上，相较短时块基线方法，WAM前向传播次数减少69.10%，执行时间缩短34.02%，同时成功率提升2.54%；在真实世界实验中，成功率提高35%。

MARBLE：扩散强化学习中多维度奖励平衡
MARBLE: Multi-Aspect Reward Balance for Diffusion RL

May 7

ByCanyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li, Chunhua Shen

强化学习微调已成为扩散模型与人类偏好对齐的主流方法。然而图像评估本质上是多维任务，需要同时优化多个评估标准。现有方法通过为每个奖励训练专用模型、优化加权奖励总和R(x)=∑ₖ wₖ Rₖ(x)，或采用手工设计的阶段调度进行顺序微调来处理多奖励问题。这些方法要么无法生成可联合训练所有奖励的统一模型，要么需要大量人工调参的顺序训练。我们发现失败根源在于使用简单的加权奖励聚合方法，该方法存在样本级失配问题——多数训练样本是专项样本，对某些奖励维度信息丰富但对其他维度无关紧要，导致加权求和稀释了其监督效果。为此我们提出MARBLE（多维度奖励平衡），一种梯度空间优化框架：为每个奖励维护独立优势估计器，计算各奖励的策略梯度，通过求解二次规划问题将其协调为单一更新方向而无需人工调优权重。我们进一步提出摊销化方案，利用DiffusionNFT损失的仿射结构将每步计算成本从K+1次反向传播降至接近单奖励基线水平，并结合平衡系数的指数移动平均平滑来抵御瞬时批量波动。在配备五种奖励的SD3.5 Medium模型上，MARBLE同时提升所有五个奖励维度，将加权求和中80%小批次的最差对齐奖励梯度余弦值从负转正，并以基线训练0.97倍的速度运行。

无意义亦有助益：提示空间扰动拓展推理探索边界
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

May 7

ByLanglin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang

具有可验证奖励的强化学习，特别是群组相对策略优化（GRPO），显著提升了大型语言模型（LLM）的推理能力。然而在复杂任务中，GRPO常遭遇"零优势问题"：当某个查询的所有采样轨迹均失败时，相对优势会坍缩为零。这导致模型在此类问题上失去有效训练信号，造成训练数据和计算资源的浪费。虽然增加问题采样量是常见补救措施，但静态采样策略本质上限制了推理探索空间，制约了成功率。本文提出探索性乱序扰动（LoPE），通过简单而有效的训练框架突破这一探索瓶颈。我们认为，与任务无关的提示空间扰动足以改变模型的输出分布，从而为难题解锁正交的推理路径。具体而言，LoPE在重新采样前将随机组合的乱序假文词汇（一种伪拉丁占位文本）序列附加至提示前端。在1.7B、4B和7B模型上的实验表明，LoPE显著优于原始提示的重复采样。进一步分析揭示，其他基于拉丁语的低困惑度随机序列同样能产生有效扰动。我们的研究结果确立了LoPE作为扩展LLM强化学习探索能力的强基准方法。

SkillOS：面向自进化智能体的技能编排学习系统
SkillOS: Learning Skill Curation for Self-Evolving Agents

May 7

BySiru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee

基于大语言模型的智能体正被越来越多地部署于流式任务处理，但它们往往仍是单次性问题解决者，未能从历史交互中学习经验。从经验中提炼的可复用技能为自我进化提供了天然基础，而高质量技能库的构建则成为关键瓶颈。现有方法要么依赖人工技能筛选，要么采用启发式技能操作规则，或仅针对短周期技能操作进行训练。然而，这些方法仍难以从间接延迟的反馈中学习复杂的长期管理策略。为应对这一挑战，我们提出SkillOS——一种基于经验驱动的强化学习训练方案，用于实现自我进化智能体中的技能管理。SkillOS将负责检索应用技能的冻结执行器，与基于累积经验更新外部技能库的可训练管理模块相结合。为提供管理行为的学习信号，我们设计了复合奖励机制，并根据技能相关任务依赖关系对任务流进行分组训练：前期轨迹更新技能库，后期相关任务则用于评估这些更新。在多轮智能体任务和单轮推理任务中，SkillOS在效能与效率上均持续超越无记忆基线及强记忆基线，且所学技能管理策略能泛化至不同执行器架构与任务领域。进一步分析表明，学习后的管理模块能实现更精准的技能调用，而技能库中的技能会逐渐演变为结构更丰富的Markdown文件，编码出更高层次的元技能。

大模型中的视听智能技术
Audio-Visual Intelligence in Large Foundation Models

May 5

ByYou Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei

视听智能（AVI）已成为人工智能的核心前沿领域，它通过融合听觉与视觉模态，使机器能够感知、生成并交互于多模态的现实世界。在大规模基础模型时代，音频与视觉的联合建模变得日益关键——不仅限于理解任务，更涵盖对动态时序信号的可控生成与推理。Meta的MovieGen与谷歌Veo-3等最新进展表明，工业界与学术界正日益聚焦于从海量多模态数据中学习的统一音视频架构。然而尽管进展迅速，该领域研究仍呈现碎片化状态：任务类型繁杂、分类标准不一、评估方法各异，阻碍了系统化比较与知识整合。本文首次从大基础模型视角对AVI领域进行全面综述，建立了覆盖理解（如语音识别、声源定位）、生成（如音频驱动视频合成、视频转音频）及交互（如对话式、具身或代理式接口）的统一任务分类体系。我们系统梳理了模态标记化、跨模态融合、自回归与扩散生成、大规模预训练、指令对齐及偏好优化等方法论基础，并整合代表性数据集、基准测试与评估指标，实现跨任务范式的结构化比较，同时指出同步性、空间推理、可控性与安全性等开放挑战。通过将这一快速扩张的领域整合为连贯框架，本综述旨在为大规模AVI的未来研究奠定基础性参考。

连续时间分布匹配用于少步扩散蒸馏
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

May 7

ByTao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang

步长蒸馏已成为加速扩散模型的主流技术，其中分布匹配蒸馏（DMD）和一致性蒸馏是两种代表性范式。一致性方法通过强制完整PF-ODE轨迹上的自一致性来引导其朝向干净数据流形，而原始DMD仅依赖少数预定义离散时间步的稀疏监督。这种受限的离散时间建模方式及反向KL散度的模式聚焦特性容易导致视觉伪影和过度平滑的输出，通常需要复杂辅助模块（如GAN或奖励模型）来恢复视觉保真度。本文提出连续时间分布匹配（CDM），首次将DMD框架从离散锚点迁移至连续优化。CDM通过两项连续时间设计实现突破：首先用动态连续随机长度调度替代固定离散调度，使分布匹配在采样轨迹的任意点而非仅限固定锚点执行；其次提出连续时间对齐目标，通过学生速度场外推的潜变量进行主动离轨匹配，从而提升泛化能力并保留精细视觉细节。在SD3-Medium和Longcat-Image等不同架构上的大量实验表明，CDM无需复杂辅助目标即可为少步数图像生成提供极具竞争力的视觉保真度。代码已开源：https://github.com/byliutao/cdm。

StraTA：基于战略轨迹抽象的任务驱动型强化学习激励机制
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

May 7

ByXiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

大型语言模型（LLMs）作为交互式智能体的应用日益广泛，但针对长周期决策的优化仍存在困难——当前方法主要依赖被动响应机制，这削弱了长轨迹中的探索能力与信用分配效率。本研究提出战略轨迹抽象框架（StraTA），通过在智能体强化学习（RL）中引入显式的轨迹级策略来解决该问题。StraTA从初始任务状态中采样生成精简策略，以其为条件指导后续行动，并通过分层GRPO式滚动设计联合训练策略生成与动作执行模块，进一步结合多样化策略滚动与关键性自评判机制增强效果。在ALFWorld、WebShop和SciWorld上的实验表明，StraTA在样本效率和最终性能上均稳定超越强基线模型：ALFWorld任务达成93.1%的成功率，WebShop达到84.2%成功率；在SciWorld中更取得63.5%的综合评分，优于前沿闭源模型表现。

利用专业智能体进行自动研究，开发出高效且非平凡的训练方案
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

May 7

ByJingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong

我们采用由外部度量驱动的封闭实证循环来研究自动化研究。每个提交的试验包含假设、可执行的代码修改、评估方持有的结果，以及塑造下一轮提案的反馈。产出并非生成的论文或单一模型检查点，而是可审计的提案轨迹、代码差异、实验数据、评分及失败标签。我们通过专业智能体实例化这一循环，这些智能体划分方案空间并在试验间共享度量谱系。核心实证发现表明：谱系反馈能使智能体将评估结果（包括运行崩溃、预算超支、规模超标和精度门限未达标等）转化为后续程序级方案修改，而非一次性建议。在一次性设置并启动后，经过1,197次主线试验及600次参数优化对照试验，人类未在搜索过程中干预提案选择、方案编辑、分数修正或失败试验修复。在三次主线运行中，同一提交-试验循环使参数优化的验证bpb降低0.81%，将NanoChat-D12核心指标提升38.7%，并使CIFAR-10 Airbench96实际运行时间减少4.59%，每项任务均由其专属外部评估器及合规性检查进行度量。追踪记录包含对157项主线提交内容的严格架构域审计，以及诸如NanoChat注意力内核路径变更等程序重写。在此范围内，该循环能自主编写代码、提交实验、吸收反馈、应用并融合各环境内的已知技术，持续改进公共初始方案。

A^2TGPO：基于自适应轮次裁剪的智能体轮次分组策略优化
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

May 7

ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang

面向智能体大语言模型（LLM）的强化学习通常依赖稀疏的轨迹级结果奖励，这导致难以评估多轮交互中单个工具调用的贡献。现有的过程信用分配方法要么依赖引入额外消耗的外部过程奖励模型，要么采用基于树结构的推演方法——后者仅能重新分配结果信号却限制了轨迹多样性。一种有前景的替代方案是利用策略对真实结果预测概率的逐轮变化（称为信息增益IG）作为无需外部评估器的内在过程信号。然而，现有在RL训练循环中利用IG信号的研究面临三个系统性挑战：面对异质位置上下文的轮次间归一化可能扭曲单轮次相对排名；可变项数累加导致优势值随轨迹深度漂移；固定裁剪范围对IG信号差异巨大的轮次采用相同策略更新方式。本文提出A²TGPO（基于自适应轮次裁剪的智能体轮次组策略优化），保留IG作为内在信号但重新设计其归一化、累加和消耗机制：（i）轮次组归一化：在每组（提示，轮次索引）内对IG归一化，使每轮仅与同交互深度的轮次比较；（ii）方差重缩放折扣累加：将累计归一化IG除以累加项数的平方根，保持不同轮次位置的优势值可比性；（iii）自适应轮次裁剪：根据归一化IG动态调整每轮裁剪范围，对信息量大的轮次拓宽更新区域，对信息量小的轮次收窄更新范围。

强化学习能否教会大模型长程推理？表达能力是关键
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

May 7

ByTianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov

强化学习（RL）已被应用于提升大语言模型（LLM）的推理能力，但由于缺乏可控且可扩展的环境，关于训练如何随任务难度扩展的系统性研究一直受阻。我们提出ScaleLogic——一个可合成逻辑推理的框架，该框架能独立控制两个难度维度：所需证明规划的深度（即决策步长）和底层逻辑的表达能力。我们提出的框架支持从仅含蕴含关系的简单逻辑（“如果-那么”）到更具表达力的一阶推理（包含“与”“或”“非”及全称量词）的广泛逻辑类型。通过该框架，我们发现RL训练计算量T与推理深度D之间遵循幂律关系（T ∝ D^γ, R² > 0.99），且缩放指数γ随逻辑表达力的增强从1.04单调递增至2.60。在数学与通用推理下游任务中，相较于低表达力训练设置，高表达力训练不仅带来更大的性能提升（最高达+10.66分），还展现出更高的计算效率迁移，这表明模型下游迁移效果既受训练量影响，更取决于训练内容本身。我们进一步验证了该幂律关系在多种RL方法中普遍成立，而基于课程学习的训练能显著提升缩放效率。

AI协数学家：以智能体AI加速数学研究进程
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

May 7

ByDaniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli

我们推出AI协同数学家平台——一个供数学家与AI智能体互动开展开放性研究的工作台。该系统针对数学研究探索性与迭代性的工作流特点进行优化，提供从概念生成、文献检索、计算探索到定理证明与理论构建的全流程支持。通过搭建异步有状态的工作空间，该系统能够管理不确定性、细化用户意图、追踪失败假设，并输出标准化的数学成果，从而模拟人类协作研究模式。在早期测试中，该平台已助力研究人员解决开放性问题、发现新研究方向并找到被忽视的文献线索。除了展示高度交互的AI辅助数学发现新范式外，该平台在复杂问题求解基准测试中亦取得突破性进展——在FrontierMath第四级测试中以48%的得分率创下所有AI系统的最高纪录。

EMO：面向涌现模块化的专家混合预训练
EMO: Pretraining Mixture of Experts for Emergent Modularity

May 7

ByRyan Wang, Akshita Bhagia, Sewon Min

大型语言模型通常以整体系统形式部署，即使应用只需调用部分功能（如代码、数学或领域知识），仍需加载完整模型。混合专家模型（MoE）表面上提供了一种替代方案——仅针对每个输入激活部分专家，但实践中发现，若将推理限制在特定领域的专家子集会导致性能严重下降。这限制了其在内存受限环境中的实用性，尤其随着模型规模增大和稀疏度提升。我们提出EMO模型，这是一种专为模块化设计的MoE方案，支持专家子集的独立使用与组合，且无需人工预设先验条件。我们的核心思路是促使相似领域的标记（token）依赖相似的专家群。由于同一文档内的标记通常属于相同领域，EMO限制它们从共享专家池中选择专家，同时允许不同文档使用不同的专家池。这一简单约束仅通过预训练中的文档边界划分，即可促使连贯的专家分组自然形成。我们在1万亿标记上预训练了包含10亿激活参数、140亿总参数的EMO模型。作为完整模型时，其性能与标准MoE相当。关键在于，它能实现选择性专家调用：仅保留25%（12.5%）专家时，性能绝对下降幅度仅为1%（3%），而标准MoE在相同设置下会失效。进一步研究发现，EMO中的专家子集在语义层面（如数学、代码等领域）呈现专业化特征，这与标准MoE中观察到的底层句法专业化形成对比。总体而言，我们的研究成果为大型稀疏模型的模块化、内存高效部署开辟了新路径，并为可组合架构创造了新的可能性。

反思驱动-2：基于强化学习对齐的离散扩散驱动自编辑技术
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

May 6

ByHuimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan

我们推出ReflectDrive-2——一种配备独立动作专家的掩码离散扩散规划器，该系统将驾驶规划表示为离散轨迹令牌，并通过并行掩码解码生成。这种离散令牌空间支持原位轨迹修订：AutoEdit功能可直接使用同一模型重写选定令牌，无需辅助优化网络。为训练该能力，我们采用两阶段训练方案：首先沿纵向进程和横向航向构建专家轨迹的结构化扰动数据，监督模型恢复原始专家轨迹；随后通过强化学习对决策-草拟-反思的全流程进行微调，将最终驾驶奖励分配给编辑后的轨迹，并通过全流程转移传递策略梯度信用。实验证明全流程强化学习对耦合草拟与编辑至关重要：仅监督训练时AutoEdit仅能提升PDMS指标0.3分，而强化学习将其增益提升至1.9分。我们还协同设计了高效的反射解码栈，结合共享前缀KV缓存、交替步进解码与端侧融合解掩码技术。在NAVSIM测试中，ReflectDrive-2在纯视觉输入下达到91.0 PDMS，6选1先知模式下达94.8 PDMS，在NVIDIA Thor平台实现31.8毫秒平均延迟。

TabEmbed：面向表格理解的通用嵌入基准构建与学习研究
TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

May 6

ByMinjie Qiang, Mingming Zhang, Xiaoyi Bao, Xing Fu, Yu Cheng, Weiqiang Wang, Zhongqing Wang, Ningtao Wang

基础模型已为自然语言处理建立了统一表征范式，然而该范式在表格数据领域仍鲜有探索。现有方法存在根本性局限：基于大语言模型的方法缺乏检索兼容的向量输出，而文本嵌入模型往往难以捕捉表格结构与数值语义。为弥补这一空白，我们首先提出表格嵌入基准（TabBench），这是一个用于评估嵌入模型表格理解能力的综合测试套件。随后我们推出TabEmbed——首个在共享嵌入空间中统一表格分类与检索任务的通用嵌入模型。通过将多样化的表格任务重构为语义匹配问题，TabEmbed采用具备正样本感知的难负例挖掘策略进行大规模对比学习，从而精准识别细粒度的结构与数值特征。在TabBench上的实验结果表明，TabEmbed显著优于当前最先进的文本嵌入模型，为通用表格表征学习设立了新基准。代码与数据集已公开于https://github.com/qiangminjie27/TabEmbed 和 https://huggingface.co/datasets/qiangminjie27/TabBench。

UniPool：面向专家混合模型的全局共享专家池
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

May 7

ByMinbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng

现代混合专家模型（MoE）架构遵循严格的逐层规则分配专家容量：每个Transformer层拥有独立的专家集合。这种惯例将深度扩展与专家参数线性增长相耦合，并假设每层都需要独立的专家容量。然而，最新分析及我们的路由探针实验对此分配规则提出了挑战：在多个生产级MoE模型中，将深层学习到的top-k路由器替换为均匀随机路由，仅导致下游任务准确率下降1.0-1.6个点。基于这种冗余性，我们提出UniPool架构，通过将逐层专家所有权替换为由独立逐层路由器访问的全局共享专家池，将专家容量视为整体架构预算。为实现共享条件下的稳定均衡训练，我们引入了池级辅助损失函数以平衡整个专家池的利用率，并采用NormRouter实现面向共享专家池的稀疏且尺度稳定的路由。在基于Pile数据集30B token训练的五个LLaMA架构模型规模（1.82亿至9.78亿参数）上，UniPool相较匹配的标准MoE基线持续提升验证集损失和困惑度指标。在这些规模下，UniPool将验证损失最大降低0.0386。除损失提升外，实验结果还表明池大小可作为显式的深度扩展超参数：仅使用标准专家参数预算41.6%-66.7%的缩减池UniPool变体，在测试规模下达到或超越了逐层MoE性能。这表明在共享池设计下，专家参数无需随深度线性增长，而是可以通过次线性增长实现比标准MoE更高效率和效能。进一步分析显示UniPool的优势可与更细粒度的专家分解策略协同增效。

RemoteZero：无需人工标注的地理空间推理
RemoteZero: Geospatial Reasoning with Zero Human Annotations

May 6

ByLiang Yao, Fan Liu, Shengxiang Xu, Chuanyi Zhang, Rui Min, Shimin Di, Yuhui Zheng

地理空间推理要求模型将复杂的空间语义与用户意图解析为精确的地球观测目标位置。近期研究进展已使推理路径摆脱人工干预，允许模型自主生成推断链。但最终依赖依然存在：模型仍需通过人工标注的真实坐标进行监督。这使得推理过程实现自主化，但其空间终点仍未独立，阻碍了模型在丰富无标注遥感数据上实现真正的自我进化。为突破此瓶颈，我们提出无需边界框监督的地理空间推理框架RemoteZero。该框架基于一个简单的不对称现象：多模态大语言模型在验证某区域是否满足查询要求方面，通常优于直接生成精确坐标的能力。利用这种更强的判别能力，RemoteZero用内在语义验证取代几何监督，实现无需边界框标注的GRPO训练。该框架进一步支持迭代式自我进化，使模型能通过自身验证信号从无标注遥感影像中持续提升。实验表明，RemoteZero在定位任务上达到了与强监督方法相当的竞争力，证明了自验证训练在地理空间推理定位领域的潜力。

SwiftI2V：基于条件分段生成的高效高分辨率图像转视频技术
SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

May 7

ByYaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen

高分辨率图像到视频（I2V）生成旨在合成逼真时序动态的同时保留输入图像的细粒度外观细节。在2K分辨率下，该任务变得极具挑战性，现有解决方案存在诸多缺陷：1）端到端模型往往存在内存占用过高和延迟过长的问题；2）通过通用视频超分模型对低分辨率生成结果进行级联处理时，由于超分阶段未显式关联输入图像，容易产生细节失真并偏离输入特定的局部结构。为此，我们提出高效的高分辨率I2V框架SwiftI2V。该框架采用广泛使用的两阶段设计，首先生成低分辨率运动参考以降低计算开销并减轻建模负担，随后在运动引导下执行强图像条件约束的2K合成，在可控开销内还原输入保真细节。具体而言，为提升可扩展性，SwiftI2V引入条件分段生成技术（CSG），通过分段合成方式将单步计算开销控制在预定范围内，并采用段内双向上下文交互机制以增强段间连贯性与输入保真度。在2K分辨率的VBench-I2V基准测试中，SwiftI2V在将总GPU耗时降低202倍的同时，取得了与端到端基准模型相当的性能。尤为重要的是，该框架可在单张数据中心级GPU（如H800）或消费级GPU（如RTX 4090）上实现实用的2K分辨率I2V生成。

TIDE：逐层洞悉上下文下的底层标记
TIDE: Every Layer Knows the Token Beneath the Context

May 7

ByAjay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Mehrdad Farajtabar, Minsik Cho

我们重新审视了现代大语言模型中一个被普遍接受但未经充分检验的设计选择：词符索引仅在输入嵌入层被查找一次，随后便被永久丢弃。这种单次注入假设引发了两种结构性问题：（i）稀有词符问题——由于词汇表的齐普夫分布特性，稀有词符嵌入因获得的累计梯度信号远少于常见词符而长期训练不足；（ii）上下文坍缩问题——参数有限的模型会将分布相似的词符映射至难以区分的隐藏状态。为解决这两个问题，我们提出TIDE方法，通过嵌入记忆模块增强标准Transformer：该模块由K个独立记忆块组成，可将词符索引映射为上下文无关的语义向量，这些向量经一次性计算后，通过带有可学习空值库的深度条件化softmax路由器注入每一网络层。我们从理论和实验两方面验证了TIDE在解决单次词符身份注入相关问题上的优势，并在多类语言建模与下游任务中实现了性能提升。

KernelBench-X：面向大模型生成GPU内核的综合评估基准
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

May 6

ByHan Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu

基于大语言模型的Triton内核生成技术虽备受关注，但一个基础性实证问题始终悬而未决：该能力在何处失效？原因何在？我们推出KernelBench-X基准测试，通过对15个类别176项任务进行类别感知的正确性与硬件效率评估，旨在解答这一问题。通过对五种代表性方法的系统比较，我们获得三项主要发现。首先，任务结构对正确性的影响远超方法设计。类别因素在语义正确性上解释的方差是方法因素的三倍（9.4% vs 3.3%），72%的融合任务在所有五种方法中均失败，而数学类任务却始终能成功解决。其次，迭代优化能提升正确性却牺牲性能。在GEAK迭代过程中，编译成功率从52.3%升至68.8%，但平均加速比从1.58倍降至1.44倍；新修复的内核性能持续低于始终正确的内核（第0至1轮迭代中加速比为1.16倍 vs 1.58倍）。第三，正确性不保证高效性。46.6%的正确内核慢于PyTorch即时执行基准，跨硬件加速比方差高达21.4倍。此外，量化任务虽具备一定编译成功率却完全未解决（0/30成功），这暴露出系统对数值计算契约的根本性误解，而非表面语法错误。这些发现表明，未来进展取决于处理全局协调、显式建模数值精度以及将硬件效率纳入生成过程。代码详见https://github.com/BonnieW05/KernelBenchX

粒度轴：语言模型中社会角色的微观至宏观潜在维度
The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

May 7

ByChonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong

大型语言模型（LLMs）常被要求扮演从个体到机构等不同社会角色，但其内部表征是否真正编码了此类角色的粒度差异——从微观层面的个体经验到宏观层面的组织、制度或国家层级的推理——仍不明确。本文通过实验证明这种粒度表征确实存在。我们定义了基于对比的粒度轴，即宏观与微观角色隐藏状态均值的差异。在Qwen3-8B模型中，该轴线与角色表征空间的主轴（PC1）呈余弦相似度0.972对齐，并解释了52.6%的方差，表明粒度是组织提示社会角色的主导几何轴线。我们构建了涵盖五个粒度等级的75种社会角色，通过共享问题和提示变体收集了91,200条角色条件化响应，进而提取角色级隐藏状态并投影至该轴线。角色投影在所有五个层级均呈现单调递增趋势，且在不同网络层、提示变体、端点定义、保留数据集和评分过滤子集中保持稳定，并可迁移至Llama-3.1-8B-Instruct模型。该轴线具有因果相关性：沿轴线进行激活导向会使响应粒度沿预测方向变化，在允许局部响应的提示下，Llama模型的宏观评分（五分量表）从2.00升至3.17。两模型在可控性上存在差异，表明导向效果取决于各模型的默认运作机制。总体而言，我们的发现表明社会角色粒度不仅是风格化的表面特征，更是角色条件化语言模型行为中具有结构化、有序性且可因果操控的潜在方向。

钢琴综合优化数据集（PianoCoRe）：融合精炼的钢琴MIDI数据集
PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7

ByIlya Borovik

拥有匹配乐谱与演奏的符号音乐数据集对众多音乐信息检索任务至关重要。然而现有资源往往存在作曲家覆盖范围有限、演奏版本单一、缺乏音符级对齐或命名格式不一致等问题。本研究推出PianoCoRe——一个通过整合优化主流开源钢琴数据库构建的大规模钢琴MIDI数据集。该数据集包含483位作曲家创作的5,625首曲目的250,046个演奏版本，总演奏时长达21,763小时。PianoCoRe采用分级子集发布以支持不同应用场景：从大规模分析与预训练（PianoCoRe-C及去重版PianoCoRe-B）到具备音符级乐谱对齐的演奏表现力建模（PianoCoRe-A/A*）。其中音符对齐子集PianoCoRe-A提供了迄今最大的开源对齐资源，包含1,591份乐谱与157,207个演奏版本的对应关系。除数据集外，本研究的贡献还包括：（1）用于检测损坏文件与类乐谱转录的MIDI质量分类器；（2）RAScoP对齐优化流程，可清理时序对齐错误并插值补全缺失音符。分析表明该优化流程能有效降低时序噪声并消除异常速度值。此外，基于PianoCoRe训练的演奏表现力渲染模型相较于原始或小型数据集训练的模型，对未见过曲目展现出更强的鲁棒性。PianoCoRe为新一代钢琴演奏表现力研究提供了即用型基础平台。

平衡聚合：理解与修正GRPO中的聚合偏差
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Apr 14

ByZhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

可验证奖励强化学习（RLVR）已成为提升大语言模型推理与代码生成能力的核心范式，其中GRPO风格训练因其简洁高效被广泛采用。然而，一个关键设计选择尚未得到充分探索：采样组内如何聚合词元级策略梯度项。标准GRPO采用序列聚合，而近期研究主张词元聚合是更优方案。我们证明这两种规则会引发不同的优化偏差：词元聚合会引入符号-长度耦合效应，而序列聚合通过序列级等权机制隐式降低长响应的权重。为解决这一矛盾，我们提出平衡聚合（BA）——一种可直接替换的简易方法，其分别在正负子集内计算词元级均值，再通过基于序列数量的权重进行组合。在Qwen2.5-Math-7B和Qwen3-1.7B模型上使用DAPO-17k和Polaris数据集的实验表明，相较于标准词元与序列聚合，BA在六个推理与代码生成基准测试中持续提升训练稳定性与最终性能。进一步分析揭示，词元与序列聚合的相对效果主要受响应长度变异度及正负样本长度差调控，凸显出聚合规则是GRPO风格RLVR中至关重要的设计维度。

数据受限训练的规范性缩放法则
Prescriptive Scaling Laws for Data Constrained Training

May 2

ByJustin Lovelace, Christian Belardi, Srivatsa Kundurthy, Shriya Sudhakar, Kilian Q. Weinberger

训练算力的增长正日益超越高质量数据的可获得性，这使得核心挑战从优化算力分配转向如何从有限数据中提取最大价值。目前广泛采用的Chinchilla缩放定律假设每个训练标记都具有唯一性，这限制了其在数据受限场景下指导预训练决策的能力。我们通过简单的加性过拟合惩罚项对重复训练下的超额损失进行建模，发现该模型能准确描述模型行为。我们的缩放定律提出了质变性的算力最优分配方案：超过某个临界点后，继续重复数据将适得其反，此时应将算力更多投入模型容量提升。实验表明，遵循本定律推荐的配置能在数据受限环境下提升模型性能。此外，由于我们的单参数形式将过拟合效应隔离在单一系数中，可实现不同训练配置间的直接比较。案例研究表明，强权重衰减（λ=1.0）能使该系数降低约70%，这为"数据受限场景下的最优权重衰减量比常规标准高一个数量级"的最新发现提供了缩放定律层面的理论解释。

基于扩散策略的隐藏奖励恢复
Recovering Hidden Reward in Diffusion-Based Policies

May 1

ByYanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu

本文提出EnergyFlow框架，该框架通过参数化标量能量函数（其梯度为去噪场），将生成式动作建模与逆强化学习相统一。我们证明在最大熵最优性条件下，通过去噪分数匹配学习到的评分函数可还原专家软Q函数的梯度，从而无需对抗训练即可实现奖励提取。形式化分析表明，约束学习场为保守场可降低假设复杂度并收紧分布外泛化边界。我们进一步刻画了还原奖励的可辨识性，并界定了评分估计误差如何传导至动作偏好。实证研究表明，EnergyFlow在多种操作任务中实现了最先进的模仿性能，同时为下游强化学习提供了优于对抗式逆强化学习方法和基于似然替代方案的有效奖励信号。这些结果表明，有效奖励提取所需的结构约束同时可作为策略泛化的有益归纳偏置。代码详见https://github.com/sotaagi/EnergyFlow。

变换器模型隐式演绎推理的缩放特性
The Scaling Properties of Implicit Deductive Reasoning in Transformers

May 5

ByEnrico Vompa, Tanel Tammet

我们系统研究了深度有界Transformer模型在霍恩子句隐式演绎推理中的扩展特性。通过系统性地将可证明性与伪相关特征解耦并强化算法对齐机制，发现采用双向前缀掩码的足够深层模型中，隐式推理在不同图拓扑结构和问题宽度下均能逼近显式思维链的性能表现，但深度外推任务仍需依赖思维链机制。

当基准缺失：无真实标签条件下LLM安全评分比较的验证方法
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7

BySushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler

在许多实际部署中，当相关语言、领域或监管体系尚未建立标注基准时，必须对候选语言模型进行安全性比较。我们将此情境形式化为"无基准比较性安全评分"，并明确基于场景的审计可被解读为部署证据的契约条件。评分仅在固定场景集、评估标准、审计员、评判员、抽样配置和重运行预算下有效。由于缺乏标注数据，我们采用工具效度链替代真实一致性：包括对受控安全态与消除态对比的响应度、目标驱动方差相对于审计员与评判员人为误差的主导性、以及跨重运行的稳定性。我们在本地优先的评分工具SimpleAudit中实例化了该效度链，并基于挪威语安全场景集进行验证。安全目标与消除目标以0.89至1.00的AUROC值实现分离，目标身份是主要方差来源（η²≈0.52），严重性分布在十次重运行后趋于稳定。将同一效度链应用于Petri工具表明其可同时兼容两种工具。实质性差异产生于效度链上游的声明-契约执行与部署适配环节。挪威公共部门采购案例中对比Borealis与Gemma 3模型的结果显示：更安全的模型取决于场景类别和风险度量指标。因此，评分、匹配差值、临界比率、不确定性及所使用的审计员与评判员必须共同报告，而非简化为单一排名。

我们在多模态领域泛化方面是否取得进展？一项综合性基准研究
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

May 7

ByHao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink

尽管多模态领域泛化（MMDG）在提升模型鲁棒性方面日益受到关注，但现有性能提升究竟源于真正的算法进步还是评估标准不一致，目前尚不明确。当前研究呈现碎片化态势，不同研究在数据集、模态配置和实验设置上存在显著差异。此外，现有基准主要集中于动作识别任务，往往忽略了输入损坏、模态缺失和模型可信度等关键现实挑战。这种标准化缺失阻碍了对该领域发展的可靠评估。为解决这一问题，我们推出首个统一全面的MMDG基准测试框架MMDG-Bench，通过对涵盖动作识别、机械故障诊断和情感分析三大任务的六个数据集实现标准化评估。该框架包含六种模态组合、九种代表性方法及多重评估场景，除标准准确率外，系统评估了损坏鲁棒性、缺失模态泛化能力、误分类检测和分布外检测性能。通过在95个独特跨领域任务上训练总计7,402个神经网络，我们获得五项关键发现：（1）在公平比较下，近期专用MMDG方法相较ERM基线仅实现边际提升；（2）没有任何方法能在不同数据集或模态组合中持续领先；（3）现有性能与理论上限存在显著差距，表明MMDG远未得到解决；（4）三模态融合并未持续优于最强的双模态配置；（5）所有方法在损坏和缺失模态场景下均出现显著性能退化，部分方法还会削弱模型可信度。

生成式量子启发科莫哥洛夫-阿诺德特征求解器
Generative Quantum-inspired Kolmogorov-Arnold Eigensolver

May 6

ByYu-Cheng Lin, Yu-Chao Hsu, I-Shan Tsai, Chun-Hua Lin, Kuo-Chung Peng, Jiun-Cheng Jiang, Yun-Yuan Wang, Tzung-Chi Huang, Tai-Yue Li, Kuan-Cheng Chen, Samuel Yen-Chi Chen, Nan-Yow Chen

高性能计算（HPC）在耦合经典生成模型、量子电路模拟及选择性组态相互作用后处理的可扩展量子化学工作流中日益重要。我们提出生成式量子启发科摩哥洛夫-阿诺德特征求解器（GQKAE），这是针对量子化学的生成式量子特征求解器（GQE）的参数高效扩展方案。GQKAE采用混合量子启发科摩哥洛夫-阿诺德网络模块替代GPT风格生成式特征求解器中参数密集的前馈网络组件，形成紧凑的HQKANsformer主干架构。该方法在保持自回归算子选择与量子选择性组态相互作用评估流程的同时，利用单量子比特数据重上传激活模块实现表达性非线性映射。在H4、N2、LiH、C2H6、H2O及H2O二聚体上的数值基准测试表明，GQKAE在达到与基于GPT的GQE架构相当的化学精度时，可减少约66%的可训练参数与内存占用，并提升实时性能。对于N2、LiH等强关联体系，GQKAE还改善了收敛行为与最终能量误差。这些结果表明量子启发科摩哥洛夫-阿诺德网络能在保持电路生成质量的同时降低经典计算开销，为近量子平台上的HPC-量子协同设计提供了可扩展路径。

GeoStack：视觉语言模型中拟阿贝尔知识组合的框架
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs

May 7

ByPranav Mantini, Shishir K. Shah

我们致力于解决视觉语言模型（VLM）中的知识组合难题——传统跨领域或多任务的知识积累往往引发灾难性遗忘。本文提出GeoStack（几何堆叠）模块化框架，可将独立训练的领域专家模型组合为统一模型。通过对适配器流形施加几何与结构约束，GeoStack能有效保全基础模型的原始知识。此外，我们通过数学推导证明了权重折叠特性，使得推理复杂度始终保持在常数级别（O(1)），与集成专家数量无关。在多领域适应和类增量学习的实验中，GeoStack在显著缓解灾难性遗忘的同时，为长期知识组合提供了高效机制。代码已开源：https://github.com/QuantitativeImagingLaboratory/GeoStack。

思而后评：解耦推理与评分的视频奖励建模方法
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

May 7

ByYuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang

近年来，生成式视频模型的进步日益依赖于训练后与测试阶段的规模扩展，这两者都关键取决于视频奖励模型的质量。理想的奖励模型应能预测符合人类偏好的精准奖励值，并覆盖多样化场景。然而现有范式面临根本性困境：判别式奖励模型直接基于多模态大语言模型提取的特征进行奖励回归，缺乏显式推理过程，易陷入捷径学习且严重依赖海量数据扩展来实现泛化。相比之下，采用思维链推理的生成式奖励模型通过细粒度语义监督内化人类偏好的决策依据，展现出更优的可解释性与泛化潜力，但由于推理与评分耦合在单一自回归推断链中，存在固有优化瓶颈。为兼顾思维链推理的泛化优势并缓解耦合式推理与评分带来的训练不稳定问题，我们提出DeScore——一种训练高效且泛化能力强的视频奖励模型。该模型采用解耦的"先思考后评分"范式：首先由多模态大语言模型生成显式思维链，随后由包含可学习查询标记和回归头的专用判别式评分模块预测最终奖励。DeScore通过两阶段框架进行优化：（1）采用随机掩码机制的判别式冷启动确保稳健的评分能力；（2）双目标强化学习阶段分别优化思维链推理质量与校准最终奖励，确保更高质量的推理能直接转化为更优的模型性能。

BioTool：面向大型语言模型生物医学能力增强的综合工具调用数据集
BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

May 7

ByXin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie

尽管大语言模型在通用任务上取得了成功，但在生物医学等高度专业化领域的表现仍不尽如人意。关键限制在于大语言模型无法有效利用生物医学工具，而临床专家和生物医学研究人员在日常工作中高度依赖这些工具。虽然近期通用领域的工具调用数据集显著提升了LLM智能体的能力，但现有生物医学领域的研究主要依赖上下文学习，并将模型限制在少量工具范围内。为弥补这一差距，我们推出了BioTool——一个专为微调大语言模型设计的综合性生物医学工具调用数据集。BioTool整合了来自NCBI、Ensembl和UniProt数据库的34个常用工具，并包含7,040个经过人工验证的高质量查询-API调用对，覆盖变异学、基因组学、蛋白质组学、进化生物学及普通生物学等领域。基于BioTool对40亿参数大语言模型进行微调后，其生物医学工具调用能力获得显著提升，性能超越GPT-5.1等尖端商用大语言模型。此外，人类专家评估表明，与未使用工具的同等模型相比，集成经BioTool微调的工具调用器能显著提升下游答案质量，这凸显了BioTool在增强大语言模型生物医学能力方面的有效性。完整数据集与评估代码已发布于https://github.com/gxx27/BioTool。

闪耀：通过解耦引导实现生动的指令驱动视频背景替换
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

May 7

ByZiyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou

近年来，诸如Senorita-2M等开源项目推动了视频编辑向自然语言指令方向发展。然而当前公开数据集主要聚焦于局部编辑或风格转换，这类任务基本保留原始场景结构且易于扩展。相比之下，作为影视制作和广告等创意应用核心任务的背景替换，需要在保持准确前景-背景交互的同时合成全新的时序一致场景，这使得大规模数据生成面临更大挑战。因此，由于高质量训练数据的稀缺，这一复杂任务至今仍未被充分探索。现有顶尖模型（如Kiwi-Edit）表现不佳正凸显了这一缺陷——因为包含该任务的主要开源数据集OpenVE-3M常生成静态、不自然的背景。本文通过溯源发现，质量下降源于数据合成过程中缺乏精确的背景引导。据此，我们设计了可扩展的生成流程，以解耦方式生成前景与背景引导并实施严格质量过滤。基于此流程，我们推出包含约14万视频对的Sparkle数据集，涵盖五种常见背景替换主题，同时发布迄今规模最大的背景替换专项评估基准Sparkle-Bench。实验表明，我们的数据集及基于其训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于所有现有基线。相关数据集、评估基准与模型已在https://showlab.github.io/Sparkle/ 全面开源。

EDU-CIRCUIT-HW：基于真实大学STEM课程手写解题过程的多模态大语言模型评估
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Apr 30

ByWeiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang

多模态大语言模型（MLLMs）在革新传统教育模式和减轻教师工作负荷方面展现出巨大潜力。然而，由于缺乏真实且领域特定的基准数据，如何准确解读学生自由书写的STEM科目手写解答（包含交织的数学公式、图表及文本推理）仍面临重大挑战。现有评估范式主要依赖下游任务结果（如自动评分），这类方法通常仅检验被识别内容的部分特征，难以全面捕捉MLLMs对复杂手写逻辑的整体理解。为弥补这一缺陷，我们发布EDU-CIRCUIT-HW数据集，该数据集包含1,300余份大学STEM课程的真实学生手写解答。通过采用专家核验的逐字转录文本和评分报告，我们同步评估了多种MLLMs的上游识别准确度与下游自动评分性能。研究发现，MLLMs识别出的学生手写内容中存在惊人规模的潜在错误，表明当前模型在高风险教育场景下的自动评分及其他理解导向任务中尚缺乏足够可靠性。作为潜在解决方案，我们通过案例研究证明：利用已识别的错误模式预先检测并修正识别错误（仅需极少量人工干预，如将3.3%的作业分配至人工评分，其余由GPT-5.1评分器处理），可有效增强部署的AI评分系统的鲁棒性。代码与数据集详见GitHub仓库：https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL。