HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

23 papers found

ARIS：基于对抗性多智能体协作的自主研究
ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

May 4

ByRuofeng Yang, Yongcan Li, Shuai Li

本报告介绍ARIS（自动睡眠研究系统），一个用于自主研究的开源研究框架，涵盖其架构设计、保障机制及早期部署经验。基于大语言模型的智能体系统性能既取决于模型权重，也依赖于管控信息存储、检索与呈现方式的研究框架。针对长周期研究流程，核心失效模式并非显性中断，而是看似合理但缺乏依据的成功——长期运行的智能体可能产生证据不完整、误报或隐性沿袭执行者预设框架的结论。为此，我们提出ARIS研究框架，其默认配置通过跨模型对抗性协作协调机器学习研究流程：由执行模型推动研究进展，同时推荐采用不同模型家族的评审模型对中间成果进行批判性审阅并提请修订。 ARIS采用三层架构设计。执行层提供65+个可复用的Markdown定义技能、基于MCP的模型集成、支持迭代复用历史发现的持久化研究维基，以及确定性图表生成功能。编排层协调五种端到端工作流，配备可调节强度参数与可配置的评审模型路由机制。保障层包含三阶段实验结论验证流程：完整性核验、结果与结论映射、以及通过对比稿件陈述与结论分类账及原始证据的结论审计；此外还集成五轮科学编辑流水线、数学证明检查器及PDF渲染效果视觉审查。原型自改进循环会记录研究轨迹并提出框架优化建议，所有改进方案均需通过评审批准后方可采纳。（注：根据技术文档翻译规范，MCP保持英文缩写原貌；"adversarial collaboration"译为"对抗性协作"以体现学术语境；"claim ledger"创新译为"结论分类账"以保持会计学隐喻；长难句按中文表达习惯进行合理切分与语序调整。）

OpenSeeker-v2：通过信息丰富的高难度轨迹突破搜索智能体的性能极限
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

May 5

ByYuwen Du, Rui Ye, Shuo Tang, Keduan Huang, Xinyu Zhu, Yuzhu Cai, Siheng Chen

深度搜索能力已成为前沿大语言模型智能体的必备核心能力，但其开发仍由行业巨头主导。典型的工业级方案需要经历预训练、持续预训练、监督微调和强化学习这一资源密集型流程。本报告表明，当注入信息丰富且高难度的决策轨迹时，简单的监督微调方法在训练前沿搜索智能体时展现出惊人潜力。通过三项数据合成改进：扩展知识图谱规模以丰富探索路径、增加工具集规模以拓宽功能范围、实施严格低步数过滤，我们建立了更强的基线模型。仅使用1.06万条数据训练的OpenSeeker-v2，在四大基准测试中（采用ReAct范式的30B规模智能体）实现领先性能：BrowseComp达46.0%、BrowseComp-ZH达58.1%、人类终极考试达34.6%、xbench达78.0%，全面超越采用繁重CPT+SFT+RL流程训练的通义深度研究（相应成绩为43.4%、46.7%、32.9%和75.0%）。值得关注的是，OpenSeeker-v2是首个在其模型规模与范式下、由纯学术团队仅通过监督微调实现顶尖水平的搜索智能体。我们激动地开源OpenSeeker-v2模型权重，分享这一简洁而有效的发现，助力前沿搜索智能体研究走向更开放的研究社区。

超越SFT到RL：基于黑盒同策略蒸馏的多模态RL预对齐方法
Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

May 1

BySudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen, Wenxuan Wang, Beier Zhu, Yunjian Zhang, Chengwei Qin

大型多模态模型（LMM）的标准后训练方案通常包括对精选示例进行监督微调（SFT），随后采用可验证奖励的强化学习（RLVR）。然而，SFT会引发分布漂移，既无法保留模型的原始能力，也难以忠实匹配监督数据的分布。这一问题在多模态推理中更为突出——感知错误与推理失败会遵循不同的漂移模式，并在后续强化学习中持续叠加。我们提出PRISM三阶段流程，通过在SFT与RLVR之间插入显式的分布对齐阶段来缓解此漂移。基于在线策略蒸馏（OPD）思想，PRISM将对齐过程构建为策略与混合专家（MoE）判别器之间的黑盒响应级对抗博弈：该判别器配备专有的感知与推理专家，可提供解耦的校正信号，引导策略逼近监督分布，且无需访问教师模型的逻辑输出。虽然126万公开示例足以实现广泛的SFT初始化，但分布对齐需要更高保真度的监督数据。为此，我们基于Gemini 3 Flash额外标注了11.3万条示例，针对最棘手的未解问题提供密集视觉定位与分步推理。在Qwen3-VL上的实验表明，PRISM能持续提升多种强化学习算法（GRPO、DAPO、GSPO）与多模态基准下的RLVR性能，在40亿和80亿参数模型上相较SFT直接接RLVR的基线分别平均提升4.4和6.0个准确率百分点。相关代码、数据及模型权重已开源：https://github.com/XIAO4579/PRISM。

X2SAM：图像与视频的通用分割技术
X2SAM: Any Segmentation in Images and Videos

Apr 27

ByHao Wang, Limeng Qiao, Chi Zhang, Lin Ma, Guanglu Wan, Xiangyuan Lan, Xiaodan Liang

多模态大语言模型（MLLMs）已展现出强大的图像级视觉理解与推理能力，但其在图像和视频中的像素级感知仍存在局限。以SAM系列为代表的基础分割模型虽能生成高质量掩码，但依赖低层级视觉提示，无法原生解析复杂对话指令。现有分割型MLLMs虽缩小了这一差距，但通常专攻图像或视频单一模态，鲜有能在同一界面中同时支持文本与视觉提示。我们提出X2SAM——一种统一的分割MLLM，将通用分割能力从图像扩展至视频。该模型通过对话指令与视觉提示，将大语言模型与掩码记忆模块相结合，该模块存储引导视觉特征以实现时序一致的视频掩码生成。同一架构支持图像和视频输入下的通用分割、开放词汇分割、指代分割、推理分割、接地对话生成、交互式分割及视觉接地分割任务。我们进一步提出视频视觉接地（V-VGD）分割基准，用于评估模型能否根据交互式视觉提示分割视频中的目标轨迹。通过采用异构图像与视频数据集进行统一联合训练，X2SAM在实现强劲视频分割性能的同时，保持图像分割基准的竞争力，并保留通用的图像与视频对话能力。

重型技能：智能代理核心中的深度思考内功
HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

May 4

ByJianing Wang, Linsen Guo, Zhengyu Chen, Qi Guo, Hongyu Zang, Wenjie Shi, Haoxiang Ma, Xiangyu Xi, Xiaoyu Li, Wei Wang, Xunliang Cai

近期，具备协调多智能体记忆、技能与工具使用的编排框架在智能体化系统方面取得显著进展，已在复杂推理任务中实现卓越成就。然而，真正驱动性能的内在机制仍被复杂的系统设计所掩盖。本文提出HeavySkill（深度思考技能）视角，将深度思考不仅视为编排框架中的最小执行单元，更视作模型参数内化的内在技能——这种技能驱动编排器解决复杂任务。我们将其识别为两阶段流程（并行推理后接总结归纳），可在任意智能体化系统底层运行。我们通过跨领域系统性实验验证HeavySkill的效果，结果表明该内在技能持续优于传统BoN策略；值得注意的是，更强的大语言模型甚至能逼近Pass@N性能。关键的是，我们证明作为可学习技能的深度思考的深度与广度，可通过强化学习进一步扩展，这为构建不依赖脆弱编排层、内化复杂推理能力的自我进化大语言模型开辟了新路径。

基于预测性隐变量的视频生成
Video Generation with Predictive Latents

May 4

ByYian Zhao, Feng Wang, Qiushan Guo, Chang Liu, Xiangyang Ji, Jian Zhang, Jie Chen

视频变分自编码器（VAE）通过将视觉世界映射至紧凑的时空潜在空间，实现了潜在视频生成建模，从而提升了训练效率与稳定性。现有视频VAE虽已实现可观的重建质量，但持续优化重建效果未必能转化为生成性能的提升。如何增强视频潜在空间的可扩散性仍是关键且尚未解决的挑战。受预测性世界建模原理启发，本研究探索了预测学习对改进视频生成建模的潜力。为此，我们提出了一种简单有效的预测性重建目标，将预测学习与视频重建相融合。具体而言，我们随机丢弃未来帧并仅编码部分历史观测帧，同时训练解码器同步重建已观测帧并预测未来帧。该设计促使潜在空间编码具有时间预测性的结构，建立对视频动态更连贯的理解，从而提升生成质量。我们提出的预测性视频VAE（PV-VAE）在视频生成任务中表现卓越，在UCF101数据集上相比Wan2.2 VAE收敛速度提升52%，FVD指标改善34.42。进一步综合分析表明，PV-VAE不仅具备良好的可扩展性（其生成性能随VAE训练同步提升），还能在下游视频理解任务中带来持续增益，印证了其潜在空间能有效捕捉时序连贯性与运动先验。

症状AI：面向日常症状评估的对话式人工智能助手
SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment

May 5

ByJoseph Breda, Fadi Yousif, Beszel Hawkins, Marinela Cotoi, Miao Liu, Ray Luo, Po-Hsuan Cameron Chen, Mike Schaekermann, Samuel Schmidgall, Xin Liu, Girish Narayanswamy, Samuel Solomon, Maxwell A. Xu, Xiaoran Fan, Longfei Shangguan, Anran Wang, Bhavna Daryani, Buddy Herkenham, Cara Tan, Mark Malhotra, Shwetak Patel, John B. Hernandez, Quang Duong, Yun Liu, Zach Wasson, Dimitrios Antos, Bob Lou, Matthew Thompson, Jonathan Richina, Anupam Pathak, Nichole Young-Lin, Jake Sunshine, Daniel McDuff

语言模型在精心设计的医学案例研究和情景测试中表现优异，其诊断评估能力达到甚至超过临床专业人员水平。然而，现有研究多聚焦于背景信息丰富的复杂场景，难以据此判断这些系统在日常症状报告情境中的实际表现。我们通过Fitbit应用部署了SymptomAI——一套用于端到端患者问诊与鉴别诊断的对话式AI代理，在一项纳入13,917名参与者的随机研究中让受试者与五款AI代理进行交互。该语料库捕捉了真实世界人群的多样化沟通方式及疾病分布特征。在1,228名报告医生诊断结果的参与者子集中，有517人经过临床专家小组累计超250小时的标注评估。盲法随机对照显示，基于相同对话记录，SymptomAI的鉴别诊断准确率显著高于独立临床医生（OR=2.47, p<0.001）。相较于用户主导对话的基线模式，采用专项症状问诊策略（即在诊断前主动获取额外症状信息）的AI代理表现显著更优（p<0.001）。针对美国普通人群小组1,509次对话的辅助分析证实，该结论可推广至可穿戴设备用户之外的人群。我们以SymptomAI的诊断结果作为全部13,917名参与者的标签，分析了近400种独特病症下超过50万日的可穿戴指标数据，发现急性感染与生理指标变化存在强关联（如流感OR值>7）。尽管受限于自我报告的真实值标注，这些结果仍证明专项完整症状问诊相较于当前消费级大语言模型默认的用户主导式症状讨论具有显著优势。

SVGS：利用空间色彩变化基元增强高斯点云渲染
SVGS: Enhancing Gaussian Splatting Using Primitives with Spatially Varying Colors

May 4

ByRui Xu, Wenyue Chen, Jiepeng Wang, Yuan Liu, Peng Wang, Cheng Lin, Shiqing Xin, Xin Li, Wenping Wang, Taku Komura

高斯溅射法基于高斯显式表示在多视图重建中展现出卓越效果。然而当前的高斯基元仅具备单一视角依赖色彩和透明度来描述场景外观与几何特征，导致表征形式不够紧凑。本文提出SVGS（空间变异高斯溅射）新方法，通过单个高斯基元中的空间变异色彩与透明度来提升表征能力。我们实现了双线性插值、可移动核函数以及微型神经网络作为空间变异函数。SVGS采用二维高斯面片作为基元，在保持高质量几何重建的同时，显著提升了新视角合成效果。该方法在实际应用中尤为有效，因为复杂纹理与相对简单几何结合的场景在真实环境中十分常见。定量与定性实验表明，三种函数均优于基线方法，其中可移动核函数在多个数据集上实现了最优的新视角合成性能，彰显了空间变异函数的强大潜力。项目页面：https://ruixu.me/html/SuperGaussians/index.html

PatRe：面向专利审查全流程的办公意见与答复生成基准
PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination

May 5

ByQiyao Wang, Xinyi Chen, Longze Chen, Hongbo Wang, Hamid Alinejad-Rokny, Yuan Lin, Min Yang

专利审查是一项复杂、多阶段的过程，既需要技术专长又涉及法律推理，且日益受到申请量激增的挑战。现有基准大多将专利审查视为判别式分类或静态信息提取，未能捕捉其与学术出版中同行评审和反驳流程类似的交互式、迭代式本质。本文提出首个模拟完整专利审查生命周期的基准PatRe，涵盖审查意见通知书生成与申请人反驳环节。该基准包含480个真实案例，支持全知检索和模拟检索两种评估模式。我们将专利审查重新定义为动态多轮论证与回应的过程。基于各类大语言模型的广泛实验揭示了关键发现：包括专有模型与开源模型的性能差异，以及审查员分析与申请人反驳任务间的不对称性。这些发现既凸显了大语言模型在模拟专利审查中复杂现实法律推理与技术新颖性判断方面的潜力，也揭示了其当前局限。我们公开代码和数据集以促进专利审查建模的后续研究。

StateSMix：基于Mamba状态空间模型与稀疏N元上下文混合的在线无损压缩方案
StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

Apr 5

ByRoberto Tacconelli

我们提出StateSMix——一种完全自包含的无损压缩器，将在线训练的Mamba风格状态空间模型（SSM）与稀疏n元语法上下文混合及算术编码相结合。该模型从零开始初始化，并在被压缩文件上逐token进行训练，无需预训练权重、GPU或外部依赖。SSM（维度DM=32，层数NL=2，每个文件约12万个活跃参数）提供基于BPE token的持续更新概率估计，而九个稀疏n元语法哈希表（二元至32元，各含1600万槽位）通过仅更新非零计数token的softmax不变对数偏置机制，实现精确的局部与长程模式记忆。熵自适应缩放机制根据SSM的预测置信度调节n元语法贡献度，在神经模型已良好校准时避免过度修正。在enwik8基准测试中，StateSMix在1MB、3MB和10MB数据上分别达到2.123bpb、2.149bpb和2.162bpb，较xz -9e（LZMA2）压缩率提升8.7%、5.4%和0.7%。消融实验证实SSM是主导压缩引擎：仅SSM即可在频数计数基线基础上实现46.6%的压缩提升，且在不使用n元语法组件时仍优于xz；而n元语法表通过精确上下文记忆提供4.1%的互补增益。训练循环的OpenMP并行化在4核上实现1.9倍加速。该系统采用纯C语言实现并支持AVX2 SIMD指令集，在商用x86-64硬件上处理速度约达2000 token/秒。

基于大语言模型的多智能体系统：通过编排轨迹实现强化学习
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

May 4

ByChenchen Zhang

随着大语言模型（LLM）智能体从孤立工具使用者发展为协同团队，强化学习（RL）不仅需要优化个体行动，还需统筹工作的生成、委派、通信、聚合与终止机制。本文通过编排轨迹——一种包含子智能体生成、任务委派、通信交互、工具调用、结果返回、信息聚合及终止决策等事件的时间交互图——来研究基于LLM的多智能体系统强化学习。基于此视角，我们提出三大技术维度：首先，奖励设计涵盖八大类别，包括针对并行加速、拆分正确性与聚合质量的协同奖励机制；其次，奖励与信用信号可附着于从词元到团队层级的八类信号承载单元，而在我们整理的文献池中，显式的反事实消息级信用分配机制尤为稀缺；第三，协同学习可分解为五项子决策：生成时机、委派对象、通信策略、聚合方式及终止判定。截至2026年5月4日，在我们的文献池中尚未发现针对终止决策的显式强化学习方法。我们将学术方法与Kimi智能体集群、OpenAI Codex及Anthropic Claude Code等工业界公开证据相关联，发现存在的规模差距主要体现在公开部署规模与开放学术评估体系之间，而非对工业训练轨迹的独立验证。我们于https://github.com/xxzcc/awesome-llm-mas-rl 开源相关资源，包括含84条标注的文献池、32条排除记录、脚本化语料统计工具，以及支持可重现编排轨迹的最小化JSON模式定义。

StableI2I：精准捕捉图像到图像转换中的非预期变化
StableI2I: Spotting Unintended Changes in Image-to-Image Transition

May 6

ByJiayang Li, Shuo Cao, Xiaohui Li, Zhizhen Zhang, Kaiwen Zhu, Yule Duan, Yu Qiao, Jian Zhang, Yihao Liu

在大多数真实世界的图像到图像（I2I）应用场景中，现有评估方法主要关注指令遵循能力以及生成图像的感知质量或美学效果，却普遍未能有效评估输出图像是否保留了输入图像的语义对应关系与空间结构。为弥补这一不足，我们提出StableI2I——一个统一且动态的评估框架，无需参考图像即可在包括图像编辑与图像复原在内的多种I2I任务中，显式衡量内容保真度与前后一致性。此外，我们构建了StableI2I-Bench基准测试集，用于系统评估多模态大模型在此类保真度与一致性评估任务中的准确性。大量实验结果表明，StableI2I能够对内容保真度与一致性提供精准、细粒度且可解释的评估，其评估结果与人类主观判断具有强相关性。本框架可作为实际可用的可靠评估工具，用于诊断真实世界I2I系统的内容一致性问题并对模型性能进行基准测试。

SplAttN：基于高斯软栅格化与注意力机制连接二维与三维的点云补全方法
SplAttN: Bridging 2D and 3D with Gaussian Soft Splatting and Attention for Point Cloud Completion

May 2

ByZhaoyang Li, Zhichao You, Tianrui Li

尽管多模态学习推动了点云补全技术的进步，但其理论机制仍不明确。现有研究将成功归因于模态间的关联，然而我们发现标准硬投影会割裂这种联系：将稀疏点云投影至图像平面会产生极度稀疏的支撑集，阻碍视觉先验的传播——这一失效模式被我们称为"跨模态熵坍缩"。针对该实际局限，我们提出SplAttN方法，通过可微分高斯溅射替代硬投影以生成稠密的连续图像平面表示。通过将投影重构为连续密度估计问题，SplAttN避免了坍缩的稀疏支撑集，促进梯度流动，并提升跨模态关联的可学习性。大量实验表明，SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。关键的是，我们采用真实场景的KITTI基准作为多模态依赖性的压力测试：反事实评估表明，基线方法在视觉信息移除时会退化为对视觉不敏感的单模态模板检索器，而SplAttN始终保持对视觉线索的鲁棒依赖性，验证了本方法能建立有效的跨模态关联。代码已开源于https://github.com/zay002/SplAttN。

Workspace-Bench 1.0：基于大规模文件依赖工作空间任务的AI智能体基准测试框架
Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

May 5

ByZirui Tang, Xuanhe Zhou, Yumou Liu, Linchun Li, Weizheng Wang, Hongzhang Huang, Jun Zhou, Jiachen Song, Shaoli Yu, Jinqi Wang, Zihang Zhou, Hongyi Zhou, Yuting Lv, Jinyang Li, Jiashuo Liu, Ruoyu Chen, Chunwei Liu, GuoLiang Li, Jihua Kang, Fan Wu

工作空间学习要求AI智能体能够识别、推理、利用并更新工作者工作空间中异构文件间的显性与隐性依赖关系，从而有效完成常规及高阶任务。尽管该能力至关重要，现有相关基准大多基于预设或合成文件对智能体进行评估，其现实依赖关系有限，导致工作空间层面的评估研究尚不充分。为此，我们推出Workspace-Bench基准测试框架，旨在评估AI智能体在涉及大规模文件依赖的工作空间学习中的表现。我们构建了包含5类工作者画像、74种文件类型、20,476个文件（最大达20GB）的拟真工作空间，精心设计了388项任务（每项任务均配有专属文件依赖关系图），并通过7,399条评估细则对智能体的跨文件检索、上下文推理及自适应决策能力进行综合测评。我们还提供包含100项任务的轻量版Workspace-Bench-Lite，在保持基准分布特征的同时将评估成本降低约70%。通过对4种主流智能体框架和7种基础模型的测试，实验结果表明当前智能体尚无法实现可靠的工作空间学习——最佳模型仅达到68.7%的准确率，显著低于人类80.7%的表现，且所有智能体的平均准确率仅为47.4%。

TTS-STT飞轮效应：合成高密度实体音频填补商业与开源系统在印度语种ASR领域的短板
The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

May 4

ByVenkata Pushpak Teja Menta

当前，针对细分领域印度语言自动语音识别（ASR）——如数字串、货币金额、地址、品牌名及英印混合语——的开源SOTA模型与商用系统均存在服务不足问题。在合成的实体密集型泰卢固语测试集（由合成系统预留）上，vasista22/whisper-telugu-large-v2（开源SOTA）的实体命中率（EHR）为0.027，Deepgram Nova-3（商用系统）为0.16。我们通过自循环的TTS<->STT飞轮机制缩小了这一差距：利用开源印度语TTS流水线以低于50美元的边际成本合成约22,000条实体密集型印英混合语句，并在vasista22模型上进行LoRA微调，使预留测试集的EHR提升至0.473（较开源SOTA提升17倍，较商用系统提升3倍），同时在FLEURS-Te数据集上的朗读散文词错误率增幅控制在+6.6个百分点以内。跨语言测试显示：β版印地语模型EHR为0.337（较vasista22提升7倍），泰米尔语模型为0.543（较vasista22和Deepgram均提升22倍）；但在Deepgram已有较好实体覆盖的印地语场景中，飞轮机制表现不及商用系统。三个β模型均未达到预注册EHR目标（泰卢固语0.75，印地语/泰米尔语0.65），我们如实报告结果。针对母语者录音的验证集（n=20条泰卢固语）证实了模型向真实语音的迁移能力（β版泰卢固语模型在母语数据上EHR为0.516，合成数据为0.473）。通过EDSA隔离消融实验（仅对FLEURS-Te进行LoRA微调）在相同预留集上获得EHR 0.020，表明性能提升几乎全部源于EDSA语料库。我们还发现语言条件性现象：原始Whisper-large-v3存在泰卢固语特有的文字崩溃现象（脚本识别率SFR为0.46-0.71），经分语言LoRA修正后SFR提升至0.81-0.97，但该方案对印地语和泰米尔语不适用（原始SFR≥0.98）。代码、预留集、预测结果、EDSA语料库及实体词典均已开源发布。

ESARBench：面向无人机智能体化搜救任务的基准测试平台
ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

May 2

ByDaoxuan Zhang, Ping Chen, Jianyi Zhou, Shuo Yang

多模态大语言模型（MLLM）的快速发展使无人机在空间推理、语义理解和复杂决策方面展现出卓越能力，使其天然适用于无人机搜救任务。然而，现有无人机搜救研究主要集中于传统视觉与路径规划方法，缺乏面向具身智能体的全面统一基准。为填补这一空白，我们首次提出具身搜救（ESAR）新任务，要求空中智能体自主探索复杂环境、识别救援线索、推理受害者位置并执行智能决策。同时，我们推出ESARBench——首个专为评估MLLM驱动无人机智能体在高真实度搜救场景中表现的综合基准。通过Unreal Engine 5与AirSim构建的四个高保真大规模开放环境，直接基于真实世界地理信息系统数据映射而成，确保景观呈现照片级真实感。为严格模拟实际救援行动，基准引入动态变量包括天气条件、昼夜时段及随机线索分布。此外，我们根据真实救援案例创建包含600项任务的数据集，并提出一套鲁棒的评估指标。通过对比传统启发式算法与先进的地面/空中MLLM目标导航智能体等多类基线，实验结果凸显了ESAR任务的挑战性，揭示出空间记忆、空中适应性以及搜索效率与飞行安全权衡等关键瓶颈。我们期待ESARBench能成为推动具身搜救领域研究的重要资源。源代码与项目页面：https://4amgodvzx.github.io/ESAR.github.io。

医疗智能体AI训练平台
Healthcare AI GYM for Medical Agents

May 1

ByMinbyul Jeong

临床推理需要多轮次交互——包括收集病史、安排检查、解读结果并制定安全治疗方案——然而现有训练环境难以兼顾临床领域的广度与专业工具的支持，无法通过强化学习训练出泛化性强的医疗AI智能体。我们基于覆盖10个临床领域、包含3600多项任务、135种专业工具及82.8万条医学知识片段的开放式训练环境，开展了医疗AI多轮智能体强化学习的实证研究。分析表明，智能体的多轮对话结构会退化为冗长的单轮独白，表现为对话长度单调激增与工具使用频率同步衰减。我们揭示了这种退化现象及蒸馏不稳定性源于稀疏终端奖励与序列化临床路径的错配。研究发现原始GRPO在某些基准测试中虽能达到较高最终准确率，但存在训练不稳定性，表现为响应长度的剧烈波动和收敛周期延长。为提升训练效率与稳定性，我们提出轮次截断同策略蒸馏（TT-OPD），该自蒸馏框架通过无梯度指数移动平均教师模型，利用结果先验信息在每轮对话中提供密集的结果感知KL正则化。TT-OPD在18项基准测试中10项表现最优，相对非RL基线平均提升3.9个百分点，并实现早期快速收敛、响应长度可控及持续的多轮工具使用。

TCDA：面向对话情感四元分析的线程约束话语感知建模
TCDA: Thread-Constrained Discourse-Aware Modeling for Conversational Sentiment Quadruple Analysis

May 3

ByXinran Li, Xinze Che, Yifan Lyu, Zhiqi Huang, Xiujuan Xu

对话式方面级情感四元分析(DiaASQ)需要捕捉多轮对话中的复杂关联关系。现有方法通常采用简单图卷积网络(GCN)，但会引入结构噪声且未考虑对话时序；或使用标准RoPE技术，虽能隐式捕捉扁平序列中的相对距离，但无法清晰分离词级句法顺序与话语级推进关系，且存在距离稀释问题。为此，我们提出融合线程约束有向无环图(TC-DAG)与语篇感知旋转位置编码(D-RoPE)的新框架。具体而言，TC-DAG基于线程约束过滤跨线程噪声，通过根节点锚定保持全局连通性，并融入对话时序信息；D-RoPE采用双流投影与多尺度频率信号对齐多层语义，利用树状距离捕捉线程依赖，并通过引入话语级推进缓解词级距离稀释问题。在两个基准数据集上的实验结果表明，本框架实现了最先进的性能表现。

交互式世界模型的基准测试：统一行动生成框架
A Benchmark for Interactive World Models with a Unified Action Generation Framework

May 5

ByJianjie Fang, Yingshan Lei, Qin Wan, Ziyou Wang, Yuchao Huang, Yongyan Xu, Baining Zhao, Weichen Zhang, Chen Gao, Xinlei Chen, Yong Li

实现通用人工智能（AGI）需要具备自适应学习与交互能力的智能体，而交互式世界模型可为感知、推理和行动提供可扩展的环境。然而当前研究仍缺乏大规模数据集和统一基准来评估其物理交互能力。为此，我们提出iWorld-Bench——一个用于训练和测试世界模型交互相关能力（如距离感知与记忆）的综合基准。我们构建了包含33万个视频片段的多样化数据集，并筛选出2100个涵盖多视角、多天气、多场景的高质量样本。针对现有世界模型交互模态的差异，我们引入行动生成框架以统一评估标准，设计六类任务类型并生成4900个测试样本。这些任务共同评估模型在视觉生成、轨迹追踪和记忆等方面的性能。通过对14个代表性世界模型的评估，我们揭示了关键局限性并为未来研究提供方向。iWorld-Bench模型排行榜已公开于iWorld-Bench.com。

技能教练：基于免训练GRPO的自我进化式技能优化器
Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

Apr 30

ByYu Tian, Jiawei Chen, Lifan Zheng, Mingxiang Tao, Xinyi Zeng, Zhaoxia Yin, Hang Su, Xian Sun

我们推出Skills-Coach——一种创新的自动化框架，旨在显著增强基于大语言模型（LLM）智能体的技能自我进化能力。针对当前技能生态系统的碎片化现状，该框架通过探索技能能力的边界，为智能应用实现全面能力覆盖提供支撑。该体系包含四大核心模块：多样化任务生成模块系统化构建覆盖各类技能的综合测试集；轻量化优化模块专注于技能提示词及对应代码的优化；对比执行模块实现原始技能与优化后技能的并行执行与评估；可追溯评估模块则依据既定标准对技能表现进行严格评判。Skills-Coach通过虚拟与真实两种模式提供灵活的执行方案。为验证其有效性，我们同步推出包含48项多元化技能的基准数据集Skill-X。实验结果表明，该框架在多种技能类别上均实现了显著的性能提升，彰显了其在推动构建更强健、自适应LLM智能体方面的潜力。

生成、筛选、调控与回放：大语言模型强化学习推演策略综述
Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Apr 8

ByRohan Surana, Gagan Mundada, Xunyi Jiang, Chuhan Wang, Zhenwei Tang, Difan Jiao, Zihan Huang, Yuxin Xiong, Junda Wu, Sheldon Yu, Xintong Li, Raghav Jain, Nikki Kuang, Sizhe Zhou, Bowen Jin, Zhendong Chu, Tong Yu, Ryan Rossi, Kuan-Hao Huang, Jingbo Shang, Jiawei Han, Julian McAuley

强化学习（RL）已成为提升大语言模型（LLM）推理能力的核心后训练工具。在这类系统中，从初始提示到终止的整个轨迹（包括中间推理步骤及可选的工具或环境交互）决定了优化器的学习数据，然而轨迹设计策略常被忽视。本综述从优化器无关的视角，系统探讨基于强化学习的推理LLM后训练中的轨迹策略。我们通过统一符号形式化轨迹生成流程，并提出生成-过滤-控制-回放（GFCR）生命周期分类法，将轨迹流程分解为四个模块化阶段：生成阶段提出候选轨迹与拓扑结构；过滤阶段通过验证器、评判器或批评器构建中间信号；控制阶段在预算约束下分配计算资源并做出延续/分支/终止决策；回放阶段在不更新模型权重的前提下跨轨迹保留并复用生成内容，包括自主生成新训练任务的自进化课程。我们进一步提出可靠性、覆盖度与成本敏感度的三元标准分类法，用以刻画轨迹策略的权衡关系。基于该框架，我们整合了可验证奖励强化学习、过程监督、基于评判器的门控、引导式与树状/分段式轨迹、自适应计算分配、早停与部分轨迹、吞吐量优化以及面向自我提升的回放重组等方法。通过数学推理、代码/SQL生成、多模态推理、工具调用智能体及智能体技能基准测试等案例，我们验证了该框架在技能归纳、复用与跨任务迁移评估中的实用性。最后，我们建立了诊断索引，将常见轨迹缺陷映射至GFCR模块及修正机制，并针对可复现、计算高效且可信赖的轨迹流程的构建提出了开放挑战。

模型应以多快速度接受监督指导？基于Tsallis损失连续体的推理模型训练研究
How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum

Apr 28

ByChu-Cheng Lin, Eugene Ie

在仅具备输出级监督的后训练过程中，当初始成功概率p_0较小时，基于可验证奖励的强化学习（RLVR）难以使推理模型适应新任务。通过引入Tsallis q-对数函数，我们构建了损失函数族J_Q，其可在RLVR（q=0时的利用极点）与潜在轨迹的对数边缘似然（q=1时的密度估计极点）之间连续过渡。该函数族所有成员均保持每样本梯度方向一致，仅通过标量放大因子P_{θ^{-q}}进行差异化调节，该因子可独立于学习率对每个实例重新加权。此放大机制正是解决冷启动停滞的关键：在梯度流下，利用极点需要Ω(1/p_0)时间才能脱离冷启动状态，而密度估计极点仅需Θ(log(1/p_0))时间；中间q值则在逃离速度与噪声记忆之间实现权衡。由于P_θ难以直接计算，我们基于梯度的两种分解形式推导出两种蒙特卡洛估计器：梯度放大强化学习（GARL）从先验分布采样并放大RL梯度，后验衰减微调（PAFT）通过重要性重采样从后验分布获取样本并执行标准SFT。二者均具有O(q/MP_θ^{q+1})的偏差：GARL方差更低，PAFT则能保持语义连贯的梯度。在FinQA、HotPotQA和MuSiQue数据集上的实验表明，q=0.75的GARL能显著缓解冷启动停滞，在GRPO完全失效的场景下成功脱离冷启动。在热启动场景中，低q值的GARL在训练稳定的FinQA任务上表现优异；而在HotPotQA和MuSiQue任务中，GARL训练过程出现失稳，此时q=0.75的PAFT能提供稳定梯度（在HotPotQA上取得47.9 maj@16的最佳效果，较GRPO提升14.4分）。

证据链：面向迭代式检索增强生成的像素级视觉归因
Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

May 2

ByPeiyang Liu, Ziqiang Cui, Xi Wang, Di Liang, Wei Ye

迭代式检索增强生成（iRAG）已成为通过逐步检索外部文档并进行推理来回答复杂多跳问题的强大范式。然而，当前系统主要基于解析后的文本运行，这造成两个关键瓶颈：（1）粗粒度归因：用户需根据模糊的文本级引用在冗长文档中手动定位证据；（2）视觉语义丢失：将富含视觉元素的文档（如含图表PDF、幻灯片）转换为文本时，会丢失对推理至关重要的空间逻辑和版式线索。为弥补这一差距，我们提出证据链（CoE）——一种与检索器无关的可视化归因框架，利用视觉语言模型直接对检索文档候选集的截图进行推理。CoE无需特定格式解析，可输出精确边界框，在检索候选集内可视化完整推理链条。我们在两个不同基准上评估CoE：基于2WikiMultiHopQA构建的大规模结构化网页数据集Wiki-CoE，以及包含复杂图表和自由版式的演示幻灯片挑战性数据集SlideVQA。实验表明，经微调的Qwen3-VL-8B-Instruct模型实现了稳健性能，在需要视觉版式理解的场景中显著优于基于文本的基线方法，同时建立了像素级可解释iRAG的检索器无关解决方案。代码已开源：https://github.com/PeiYangLiu/CoE.git。

症状AI：面向日常症状评估的对话式人工智能助手
SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment

May 5