HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

29 papers found

强化学习中基于群体层面自然语言反馈的引导式探索
Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Mar 4

ByLei Huang, Xiang Cheng, Chenxiao Zhao, Guobin Shen, Junjie Yang, Xiaocheng Feng, Yuxuan Gu, Xing Yu, Bing Qin

204

大型语言模型（LLMs）通常通过与环境交互获得多样化的自然语言反馈。然而，当前强化学习（RL）算法仅依赖标量奖励，导致自然语言反馈中的丰富信息未被充分利用，探索效率低下。本研究提出GOLF强化学习框架，通过显式利用群体层面的语言反馈，以可执行的改进方案指导定向探索。GOLF整合两种互补的反馈源：（i）指出错误或提出针对性修正的外部评判；（ii）提供替代性局部思路和多样化失败模式的组内尝试。这些群体反馈被聚合生成高质量改进方案，作为离策略脚手架自适应注入训练过程，在稀疏奖励区域提供定向指导。同时，GOLF在统一强化学习循环中联合优化生成与改进能力，形成持续提升双重能力的良性循环。在可验证与不可验证基准测试上的实验表明，GOLF实现了卓越的性能和探索效率，相比仅使用标量奖励的强化学习方法，样本效率提升达2.2倍。代码已开源：https://github.com/LuckyyySTA/GOLF。

OpenClaw-RL：通过对话训练任意智能体
OpenClaw-RL: Train Any Agent Simply by Talking

Mar 10

ByYinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang

130

每次智能体交互都会产生一个状态转移信号——即用户回复、工具输出、终端或图形界面状态变化等行动后的反馈，然而现有强化学习系统均未将其作为实时在线学习资源进行利用。我们提出OpenClaw-RL框架，其核心基于一个简明发现：状态转移信号具有普适性，策略可以从所有信号中同步学习。私人对话、终端执行、图形界面交互、软件工程任务与工具调用轨迹并非独立的训练课题，而是能在同一循环中训练同一策略的交互资源。这些信号编码着双重信息：评估信号（通过PRM评判器提取标量奖励以反映行动效果）与指导信号（通过 hindsight-guided 策略蒸馏技术揭示行动改进方向）。我们从后续状态提取文本提示，构建增强型教学上下文，提供比标量奖励更丰富的词级方向性优势监督。得益于异步架构，模型可同时处理实时请求、PRM评判持续交互、训练器更新策略，三者间实现零协调开销。应用于个人助手时，OpenClaw-RL使智能体仅通过日常使用就能持续进化，从用户重复查询、修正指令和显式反馈中提取对话信号；应用于通用智能体时，同一基础设施支持终端、图形界面、软件工程及工具调用场景的可扩展强化学习，其中我们还验证了过程奖励的有效性。代码地址：https://github.com/Gen-Verse/OpenClaw-RL

Flash-KMeans：快速且内存高效的精确K均值算法
Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Mar 10

ByShuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion Stoica

k-means算法历来主要被定位为离线处理原语，通常用于数据集组织或嵌入预处理，而非作为在线系统中的核心组件。本研究通过现代AI系统设计的视角重新审视这一经典算法，将其实现为在线处理原语。我们指出，现有GPU实现的k-means算法根本瓶颈在于底层系统约束而非理论算法复杂度：分配阶段因高带宽内存中N×K距离矩阵的大规模显式物化而遭遇严重IO瓶颈；质心更新阶段则因不规则散射式令牌聚合引发的硬件级原子写竞争而严重受限。为弥补这一性能差距，我们提出flash-kmeans——面向现代GPU工作负载的IO感知无竞争k-means实现。该方案引入两项核心内核级创新：(1) FlashAssign通过融合距离计算与在线argmin操作，彻底规避中间存储物化；(2) 排序逆映射更新通过显式构建逆映射，将高竞争原子散射转换为高带宽分段局部归约。此外，我们整合算法-系统协同设计，包括分块流重叠和缓存感知编译启发式策略，确保实际可部署性。在NVIDIA H200 GPU上的大量实验表明，flash-kmeans相较最佳基线实现端到端加速达17.9倍，同时以33倍和200倍以上的优势超越cuML、FAISS等工业标准库。

LLM2Vec-Gen：基于大型语言模型的生成式嵌入方法
LLM2Vec-Gen: Generative Embeddings from Large Language Models

Mar 11

ByParishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy

基于大语言模型的文本嵌入器通常对其输入的语义内容进行编码。然而，嵌入任务需要将多样化输入映射到相似输出。传统方法通常通过对比学习使用配对数据训练嵌入模型来解决这一输入输出映射问题。本研究提出了一种新颖的自监督方法LLM2Vec-Gen，它采用不同的范式：不是对输入进行编码，而是学习表示模型的潜在响应。具体而言，我们在LLM词表中添加可训练的特殊标记，将其附加到输入后，通过优化使这些标记能够以固定长度序列表示LLM的响应。训练过程由LLM自身对查询的补全结果指导，并结合提供蒸馏目标的非监督嵌入教师模型。这种设计有助于弥合输入输出差距，并将LLM的安全对齐、推理等能力迁移到嵌入任务中。关键的是，LLM主干网络保持冻结状态，且训练仅需未标注的查询数据。LLM2Vec-Gen在Massive文本嵌入基准测试（MTEB）中实现了最先进的非监督性能，较最佳非监督嵌入教师模型提升9.3%。我们还观察到嵌入任务中有害内容检索量减少达43.2%，推理能力提升29.3%。最终，学习得到的嵌入结果具有可解释性，可通过解码为文本来揭示其语义内容。

大型语言模型工具使用的上下文强化学习
In-Context Reinforcement Learning for Tool Use in Large Language Models

Mar 9

ByYaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh

尽管大型语言模型（LLM）展现出强大的推理能力，但其在复杂任务上的表现常受限于内部知识的不足。解决这一挑战的有效途径是为模型增强外部工具支持——例如利用Python解释器进行数学计算，或通过搜索引擎获取事实信息。然而，如何使模型有效调用这些工具仍是重要难题。现有方法通常采用冷启动流程：先进行监督微调（SFT），再实施强化学习（RL）。这类方法往往需要大量标注数据进行SFT，其标注或合成成本高昂。本研究提出上下文强化学习（ICRL），这一纯强化学习框架通过在RL推演阶段采用少量示例提示，消除了对SFT的依赖。具体而言，ICRL在推演提示中引入上下文示例，指导模型如何调用外部工具。随着训练推进，上下文示例数量逐步减少，最终实现模型在零样本环境下独立调用工具。我们在多项推理与工具使用基准测试中展开实验，结果表明ICRL实现了最先进的性能，证明了其作为可扩展、高数据效率的传统SFT流程替代方案的有效性。

MA-EgoQA：基于多智能体具身视角视频的问答系统
MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Mar 10

ByKangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang

随着具身模型日益强大，未来人类将在工作场所或家庭中与多个具身AI智能体协同工作。为确保人类用户与多智能体系统间更顺畅的沟通，关键要实现对多智能体并行输入信息的解析，并为每个查询匹配相应上下文。现有挑战包括：如何有效压缩并传递以视频形式存在的大量个体感知输入，以及如何正确聚合多个第一视角视频以构建系统级记忆。本研究首次正式定义了"同时理解来自具身智能体的多个长时序第一视角视频"这一新问题。为推进该方向研究，我们提出了MultiAgent-EgoQA（MA-EgoQA）基准测试，用于系统评估现有模型在此场景下的表现。该基准包含1.7万个专为多视角视频流设计的独特问题，涵盖社交互动、任务协调、心理理论、时序推理和环境交互五大类别。我们进一步提出名为EgoMAS的简易基线模型，通过共享记忆机制与智能体间动态检索技术实现多智能体协同。通过对MA-EgoQA上多种基线模型及EgoMAS的综合评估，发现现有方法难以有效处理多路第一视角视频流，这凸显了未来在跨智能体系统级理解方面取得突破的必要性。代码与基准测试数据已发布于https://ma-egoqa.github.io。

ReMix：大语言模型微调中LoRA混合体的强化路由策略
ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Mar 10

ByRuizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong

低秩适配器（LoRA）是一种参数高效的微调技术，通过向预训练模型注入可训练的低秩矩阵使其适配新任务。混合LoRA模型通过将每层输入路由至该层少量专用LoRA子集，实现了神经网络的高效扩展。现有混合LoRA路由器通过为每个LoRA分配可学习路由权重来实现路由器的端到端训练。尽管这类方法展现出实用潜力，但我们发现实际应用中路由权重通常在LoRA间呈现极端不平衡，往往仅有一两个LoRA主导路由权重。这本质上限制了有效LoRA的数量，从而严重制约了现有混合LoRA模型的表达能力。本文我们将此缺陷归因于可学习路由权重的固有特性，并重新思考了路由器的根本设计。针对这一关键问题，我们提出名为"混合LoRA强化路由"（ReMix）的新型路由器设计方案。其核心思想是采用不可学习路由权重确保所有活跃LoRA具有同等效力，避免任何LoRA主导路由权重。然而，由于不可学习路由权重的特性，我们的路由器无法直接通过梯度下降进行训练。为此，我们进一步引入强化学习中的留一法奖励估计技术，将监督损失视为奖励、路由器视为策略，构建了无偏梯度估计器。该梯度估计器还能通过扩展训练计算量来提升ReMix的预测性能。大量实验表明，在激活参数量相当的条件下，我们提出的ReMix显著优于当前最先进的参数高效微调方法。

大型语言模型能否跟上步伐？持续知识流在线适应能力基准测试
Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Mar 8

ByJiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo

在动态现实场景中运行的LLMs常常面临持续演进或渐进涌现的知识。为保持准确性与有效性，模型必须实时适应不断涌现的新信息。我们提出持续知识流在线适应基准（OAKS）来评估这种能力，为流式持续更新知识上的在线适应建立衡量标准。该基准具体呈现为细粒度语境片段序列，其中事实会随时间区间动态变化。OAKS包含OAKS-BABI和OAKS-Novel两个数据集，每个数据集中的独立事实会在不同语境片段间经历多次演变。这些数据集配有密集标注，用于衡量模型是否准确追踪变化。通过对14种采用不同推理方法的模型进行评估，我们发现现有方法存在显著局限：无论是前沿模型还是具备记忆机制的智能体系统，均未能在OAKS基准上展现稳健的适应能力，表现出状态追踪延迟以及在流式环境中的抗干扰能力薄弱等问题。

ID-LoRA：基于身份驱动的上下文感知LoRA音视频个性化方法
ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

Mar 10

ByAviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes

现有视频个性化方法虽能保持视觉相似性，但将视频与音频分开处理。由于音频模型无法获取视觉场景信息，难以实现声音与画面动作的同步；而传统语音克隆模型仅依赖参考录音进行条件控制，文本提示无法调整说话风格或声学环境。我们提出ID-LoRA（身份驱动的上下文LoRA），通过单一模型联合生成主体的外观与声音，使文本提示、参考图像和短音频片段共同调控双模态。该方法基于参数高效的上下文LoRA对LTX-2音视频联合扩散主干进行适配，据我们所知，这是首个在单次生成过程中同步实现视觉外观与声音个性化的方法。我们面临两大挑战：参考标记与生成标记共享位置编码空间导致难以区分，为此我们采用负时间位置编码，将参考标记置于独立的RoPE区域同时保持其内部时序结构；去噪过程中说话人特征易被稀释，我们提出身份引导技术——一种无需分类器的引导变体，通过对比有无参考信号时的预测结果来增强说话人特异性特征。在人类偏好研究中，ID-LoRA在声音相似度上以73%的评分优于Kling 2.6 Pro，说话风格偏好度达65%。在跨环境场景下，其说话人相似度较Kling提升24%，且环境差异越大优势越显著。初步用户研究表明，联合生成为物理真实的声音合成提供了有效的归纳偏置。ID-LoRA仅需单GPU约3000个训练样本即可达成上述效果，代码、模型与数据将开源发布。

SVG-EAR：基于误差感知路由的稀疏视频生成无参数线性补偿方法
SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Mar 9

ByXuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung

扩散变换器（DiT）已成为视频生成的主流架构，但其二次方注意力计算成本仍是主要瓶颈。稀疏注意力通过仅计算部分注意力块来降低开销，然而现有方法往往直接丢弃剩余块导致信息损失，或依赖训练预测器进行近似，这会引入训练开销并可能改变输出分布。本文提出无需训练即可恢复缺失贡献的方法：经过语义聚类后，每个注意力块内的键值对表现出强相似性，可通过少量聚类中心点有效概括。基于此发现，我们设计了SVG-EAR——一种无参数的线性补偿分支，利用中心点近似被跳过的注意力块并恢复其贡献。虽然中心点补偿对多数块具有较高精度，但在少量块上可能失效。传统稀疏化通常根据注意力分数选择计算块，该分数仅反映模型关注区域，无法指示近似误差最大的位置。为此SVG-EAR采用误差感知路由机制：通过轻量级探针估计每个块的补偿误差，精确计算误差-成本比最高的块，同时对跳过块进行补偿。我们建立了注意力重建误差与聚类质量的理论关联，并在视频扩散任务上验证SVG-EAR可提升质量-效率权衡，在保持生成保真度的同时提高吞吐量。实验表明SVG-EAR在Wan2.2和HunyuanVideo数据集上分别实现1.77倍和1.93倍加速，同时维持29.759与31.043的峰值信噪比，显著优于现有方法的帕累托边界。

CodePercept：面向多模态大语言模型的代码驱动视觉STEM感知
CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Mar 11

ByTongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang

当多模态大语言模型在科学、技术、工程和数学领域的视觉推理中出现失误时，一个根本性问题随之产生：这究竟是源于感知缺陷还是推理局限？通过独立缩放感知与推理组件的系统性规模分析，我们获得关键发现：增强感知能力始终优于强化推理能力。这表明感知能力才是当前制约STEM视觉推理的真正瓶颈。基于这一洞见，我们的研究致力于通过建立代码作为强感知媒介来系统化提升MLLMs的感知能力——可执行代码提供的精确语义天然契合STEM视觉内容的结构化特性。具体而言，我们构建了ICC-1M大规模数据集，包含100万个图像-描述-代码三元组，通过两种互补方法实现代码即感知范式：（1）代码锚定描述生成将可执行代码作为图像描述的真实基准，消除现有知识蒸馏方法固有的幻觉问题；（2）STEM图像到代码转换引导模型生成重构代码，通过规避自然语言的模糊性来增强感知。为验证该范式，我们进一步推出STEM2Code-Eval新型基准测试，直接评估STEM领域的视觉感知能力。与依赖解题准确率作为代理指标、仅测量问题相关理解的现有工作不同，我们的基准测试要求通过生成图像重构的可执行代码来实现全面视觉理解，提供确定且可验证的评估方案。代码已开源：https://github.com/TongkunGuan/Qwen-CodePercept。

回溯智能体：从问题求解到自主演进的回溯式双重内在反馈机制
RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Mar 9

ByXiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao

基于大语言模型（LLM）的强化学习（RL）智能体在复杂交互任务中展现出巨大潜力。然而传统RL范式偏向静态问题求解而缺乏持续适应能力：智能体常因探索不足收敛至次优策略，且所学知识隐式存储于参数中难以显式检索，限制了有效经验学习。为此我们提出RetroAgent——一种支持智能体通过持续进化（而不仅是问题解决）来掌控复杂交互环境的在线RL框架。该框架核心是具备双重内在反馈的后见自省机制：（1）追踪当前尝试相对于历史进度的子任务完成度、奖励潜在探索路径的数值化反馈；（2）将可复用经验提炼存储至记忆库的语言化反馈。我们同时提出相似度与效用感知上置信界（SimUtil-UCB）检索策略，通过平衡相关性、实用性与探索性实现历史经验的高效利用。在四个挑战性智能体任务上对两类模型系列的实验表明，RetroAgent显著超越现有方法：在ALFWorld、WebShop、Sokoban和扫雷任务上分别较GRPO训练智能体提升18.3%、15.4%、27.1%和8.9%，同时展现出强大的测试时适应能力与对分布外场景的泛化性能。

Prism-Δ：面向大语言模型提示凸显的差分子空间引导方法
Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Mar 11

ByYuyao Ge, Shenghua Liu, Yiwei Wang, Tianyu Liu, Baolong Bi, Lingrui Mei, Jiayu Yao, Jiafeng Guo, Xueqi Cheng

提示高亮技术能够引导大语言模型在生成过程中优先处理用户指定的文本片段。其核心挑战在于提取能够区分相关与无关语境的引导方向，而非二者共有的结构模式。我们提出PRISM-Δ（基于投影的相关性感知引导方法），该方法通过分解正负交叉协方差矩阵的差异，在消除共享方向的同时最大化判别能量。每个注意力头会获得连续的softplus重要性权重，使得弱效但有用的注意力头能以降低的强度参与计算。该框架可自然扩展至Value表示，捕获仅使用Key的方法所忽略的内容通道信号。在四个基准测试和五个模型上的实验表明，PRISM-Δ在20种配置中的19种达到或超越现有最佳方法，相对增益最高达+10.6%，同时将引导的流畅性损耗降低一半。PRISM-Δ还能扩展至长上下文检索任务，相较现有最佳方法实现最高+4.8%的相对增益。该方法兼容FlashAttention且仅增加可忽略的内存开销。

迷失在反向传播中：LM头部成为梯度瓶颈
Lost in Backpropagation: The LM Head is a Gradient Bottleneck

Mar 10

ByNathan Godey, Yoav Artzi

神经语言模型（LM）的最后一层需将维度为D的输出特征映射至词汇表大小V对应的逻辑值空间，通常存在D远小于V的维度失配问题。这种失配不仅会引发表达能力受限的风险（即所谓的softmax瓶颈），本文更揭示其同时构成优化瓶颈。当V维梯度经由秩为D的线性层反向传播时，会引发不可避免的压缩效应，从而改变对绝大多数参数提供的训练反馈。我们通过理论分析证明，输出层会抑制95%-99%的梯度范数，导致更新方向严重偏离最优解。受控预训练实验表明，梯度瓶颈会使简单模式变得不可学习，并显著影响大语言模型的训练动态。我们认为这一固有缺陷会独立于模型架构导致大规模训练低效，亟需新型LM头部结构的设计创新。

V_{0.5}：作为稀疏强化学习 rollout 先验的通用价值模型
V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

Mar 11

ByYi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye

在可验证奖励的强化学习（RLVR）框架中，构建稳健的优势基线对策略梯度方法至关重要，它能有效引导策略模型强化期望行为。近期研究提出的通用价值模型（如V_0）通过显式编码模型上下文能力实现预训练价值估计，无需与策略模型同步更新。本文提出V_{0.5}方法，自适应融合此类价值模型的基线预测（作为先验）与稀疏 rollout 获得的经验均值，构建出兼顾计算效率与极低方差的稳健基线。具体而言，我们引入实时统计检验与动态预算分配机制，平衡稀疏采样引起的高方差与价值模型先验固有的系统偏差（或幻觉）。通过假设检验实时评估先验可靠性，系统按需动态分配额外 rollout 预算。该机制显著降低了基线估计器的均方误差（MSE），即使在组大小为4的极端稀疏条件下仍能保证策略梯度的稳定性。在六个数学推理基准上的广泛实验表明，V_{0.5}显著优于GRPO和DAPO，实现了更快的收敛速度与约10%的性能提升。

即时编译：扩散变换器的免训练空间加速技术
Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Mar 11

ByWenhao Sun, Ji Li, Zhaoqiang Liu

扩散Transformer在图像合成领域确立了新的性能标杆，但迭代采样过程的高计算成本严重制约了其实际应用。现有加速方法多聚焦于时间维度优化，却忽视了生成过程中固有的空间冗余——全局结构往往在精细细节形成之前就已确立。对所有空间区域采用均质化计算的方式存在显著效率瓶颈。本文提出即时生成框架，通过空间维度加速突破这一困境。该框架构建了空间近似生成常微分方程，基于动态选择的锚点令牌稀疏子集驱动全潜态演化。为确保新令牌融入潜态维度扩展时的无缝衔接，我们设计了确定性微流机制，这种简洁有效的有限时间常微分方程能同时保持结构连贯性与统计准确性。在最新FLUX.1-dev模型上的实验表明，该框架可实现近7倍加速且性能几乎无损，显著超越现有加速方法，在推理速度与生成保真度之间建立了更优越的平衡点。

RbtAct：以反驳为监督的可执行评论反馈生成方法
RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Mar 10

BySihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan

大型语言模型（LLMs）在科研工作流中的应用日益广泛，包括用于起草同行评审报告。然而，许多AI生成的评审内容流于表面且缺乏可操作性，导致作者无法获得具体可行的指导，这也正是本研究致力于解决的痛点。我们提出RbtAct方法，该方案以生成具有可操作性的评审反馈为目标，并将现有同行评审反驳意见作为核心学习素材。反驳意见能揭示哪些评审意见促成了实质性修改或具体计划，而哪些仅被作者辩护性回应。基于此洞见，我们利用反驳意见作为隐式监督信号，直接优化反馈生成器的可操作性。为支撑该目标，我们提出名为"视角约束的片段级评审反馈生成"的新任务，要求模型基于完整论文和特定视角（如实验设计、行文表达）生成聚焦的单项评论。同时构建了包含7.5万条数据的大规模数据集RMR-75K，其中将评审片段与对应的反驳片段进行映射，并标注视角标签和反映作者采纳程度的影响力类别。我们采用监督微调方式在评审片段上训练Llama-3.1-8B-Instruct模型，继而利用反驳意见衍生的配对数据进行偏好优化。经专家评估和LLM作为评判者的实验表明，该方法在保持内容相关性与准确性的同时，相较于强基线模型在可操作性和具体性方面均取得稳定提升。

据我所忆：长期个性化指代记忆问答
According to Me: Long-Term Personalized Referential Memory QA

Mar 2

ByJingbiao Mei, Jinghong Chen, Guangyu Yang, Xinyu Hou, Margaret Li, Bill Byrne

个性化人工智能助手需具备对长期用户记忆的调用与推理能力，这些记忆天然跨越图像、视频、邮件等多模态、多来源数据。然而现有长期记忆基准主要聚焦于对话历史，未能捕捉基于真实生活体验的个性化参照。我们推出首个多模态多源个性化参照记忆问答基准ATM-Bench，其中包含约四年的隐私保护型个人记忆数据及人工标注的问答对（附带真实记忆证据），涵盖需要解析个人参照、多源多证据推理以及处理矛盾证据的查询类型。我们提出模式引导记忆法（SGM），对源自不同渠道的记忆项进行结构化表征。实验环节中，我们实现了5种前沿记忆系统与标准RAG基线，并评估了采用不同记忆录入、检索及答案生成技术的变体。研究发现：现有系统在ATM-Bench困难集上表现欠佳（准确率低于20%），且SGM相较于前人工作中常用的描述性记忆法能有效提升性能。代码地址：https://github.com/JingbiaoMei/ATM-Bench

CLIPO：策略优化中的对比学习泛化RLVR
CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Mar 10

BySijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang

基于可验证奖励的强化学习（RLVR）显著提升了大型语言模型（LLM）的推理能力。然而，RLVR仅依赖最终答案作为结果奖励，忽略了中间推理步骤的正确性。对这类过程错误但结果正确的推演轨迹进行训练，可能导致幻觉答案和答案复制问题，严重损害模型的泛化能力与鲁棒性。为解决这一问题，我们在策略优化中引入对比学习机制（CLIPO）以泛化RLVR过程。通过优化成功轨迹的对比损失，CLIPO引导LLM捕捉正确推理路径间共享的不变结构。相较于RLVR原有的单一路径监督，该方法提供了更稳健的跨轨迹正则化，有效缓解步骤级推理不一致性并抑制幻觉伪影。实验表明，在多样化推理基准测试中，CLIPO持续提升了多种RLVR基线方法，显著增强了LLM策略优化的泛化性与鲁棒性。相关代码及训练方案已开源：https://github.com/Qwen-Applications/CLIPO。

长视野大语言模型智能体的后见之明信用分配
Hindsight Credit Assignment for Long-Horizon LLM Agents

Mar 7

ByHui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li

在大规模语言模型智能体处理长周期、多步骤任务时，由于奖励稀疏性常面临显著的信用分配难题。现有无价值函数方法（如分组相对策略优化GRPO）存在两大瓶颈：不精确的步骤级Q值估计与中间状态的价值基线失准。为此，我们提出HCAPO框架——首个将事后信用分配机制集成至LLM智能体的方法。HCAPO利用LLM自身作为事后评判器，通过回溯推理优化步骤级Q值估计。此外，其多尺度优势机制能有效补充关键决策状态下的不精确价值基线。在WebShop、ALFWorld等三个挑战性基准测试中，HCAPO均显著优于当前最先进的强化学习方法。值得注意的是，基于Qwen2.5-7B-Instruct模型，HCAPO在WebShop上的成功率较GRPO提升7.7%，在ALFWorld上提升13.8%。结果表明，HCAPO能显著提升探索效率，促进简洁决策，并确保复杂长周期任务中的可扩展性。

梅萨：多模态医疗智能体系统
Meissa: Multi-modal Medical Agentic Intelligence

Mar 9

ByYixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille

多模态大语言模型（MM-LLMs）在医学图像理解与临床推理领域已展现出强大性能。近期出现的医疗智能体系统通过工具调用与多智能体协作进一步扩展其能力，实现了复杂决策功能。然而这些系统几乎完全依赖前沿模型（如GPT），其基于API的部署方式存在高成本、高延迟及隐私风险问题，与临床本地化需求相冲突。我们提出Meissa——一个轻量级的40亿参数医疗多模态大语言模型，可将智能体能力实现离线部署。该模型并非简单模仿静态答案，而是通过蒸馏前沿模型的结构化轨迹，同时学习何时启动外部交互（策略选择）以及如何执行多步交互（策略执行）。具体贡献包括：（1）统一轨迹建模：将推理与行动轨迹纳入“状态-行动-观测”形式化框架，使单一模型能泛化至异构医疗环境；（2）三级分层监督：根据模型自身错误触发从直接推理到工具增强、再到多智能体交互的渐进式升级，显式学习难度感知的策略选择；（3）前瞻-回溯监督：将探索性前向轨迹与后见之明理性化的执行轨迹配对，稳定习得有效交互策略。基于4万条精选轨迹训练后，Meissa在涵盖放射学、病理学及临床推理的13个医疗基准测试中，16个评估场景有10项达到或超越专业前沿智能体性能。相较于Gemini-3等典型前沿模型，Meissa参数量减少25倍以上，端到端延迟比API部署降低22倍，并实现完全离线运行。数据、模型及环境已发布于https://github.com/Schuture/Meissa。

漫画：智能体喜剧小品生成
COMIC: Agentic Sketch Comedy Generation

Mar 11

BySusung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz

我们提出了一套全自动人工智能系统，能够制作类似《周六夜现场》的短篇喜剧视频。该系统以角色设定为起点，采用基于真实制片厂职能构建的智能体群体架构，通过迭代竞争、评估与优化机制，确保创意产出与视频成果的质量及多样性。核心创新在于引入大语言模型评论家——通过分析YouTube喜剧视频语料库，使其与真实观众偏好对齐，实现幽默效果的自动化评估。实验表明，该框架生成的视频质量接近专业制作水准，同时在视频生成领域展现出顶尖性能。

UniCom：基于压缩连续语义表征的统一多模态建模
UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Mar 11

ByYaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo

当前统一多模态模型通常依赖离散化视觉分词器来弥合模态差异。然而离散化过程不可避免地会丢失细粒度语义信息，导致视觉理解任务表现欠佳。反观直接建模连续语义表征（如CLIP、SigLIP）的方法，又面临高维生成建模的重大挑战，存在收敛速度慢和训练不稳定的问题。为解决这一困境，我们提出UniCom框架——通过压缩连续表征实现多模态理解与生成的统一协调。实证研究表明，对于重建和生成任务，降低通道维度比空间下采样更为有效。基于此，我们设计了基于注意力机制的语义压缩器，将稠密特征提炼为紧凑的统一表征。此外，我们验证了transfusion架构在收敛性和一致性方面优于基于查询的设计。实验表明，UniCom在统一模型中实现了最先进的生成性能。值得注意的是，通过保留丰富语义先验，该框架在图像编辑中展现出卓越的可控性，即使不依赖VAE也能保持图像一致性。

大型语言模型潜在空间中的因果概念图及其逐步推理机制
Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Mar 11

ByMd Muntaqim Meherab, Noor Islam S. Mohammad, Faiza Feroz

稀疏自编码器能够定位语言模型中概念的存在位置，但无法揭示多步推理过程中概念的交互机制。我们提出因果概念图（CCG）：一种基于稀疏可解释潜在特征的有向无环图，其边捕捉了概念间习得的因果依赖关系。我们将面向任务的条件稀疏自编码器用于概念发现，结合DAGMA式可微分结构学习实现图结构恢复，并引入因果保真度评分（CFS）来评估图引导干预是否比随机干预产生更大的下游效应。在GPT-2 Medium模型上进行的ARC挑战赛、StrategyQA和LogiQA实验中，经过五个种子运行（n=15组配对实验），CCG取得CFS=5.654±0.625的成绩，显著优于ROME式追踪法（3.382±0.233）、纯稀疏自编码器排序法（2.479±0.196）及随机基线（1.032±0.034），经Bonferroni校正后p值小于0.0001。习得的概念图具有稀疏性（边密度5-6%）、领域特异性，且在种子间保持稳定。

V2M-Zero：零配对时间对齐的视频到音乐生成技术
V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Mar 11

ByYan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan

现有文本生成音乐模型因缺乏细粒度时间控制，难以实现与视频事件的时间对齐。我们提出V2M-Zero——一种零配对视频生成音乐方法，可为视频输出时间同步的音乐。该方法基于关键发现：时间同步需匹配变化发生的时机与程度，而非变化内容本身。尽管音乐与视觉事件在语义上存在差异，但它们具有可独立捕捉的跨模态时间结构。我们通过预训练音乐/视频编码器计算模态内相似度，构建事件曲线来捕捉这种结构。通过独立测量各模态内的时间变化，这些曲线提供了跨模态的可比表征。由此实现简易训练策略：先在音乐事件曲线上微调文本生成音乐模型，推理时直接替换为视频事件曲线，无需跨模态训练或配对数据。在OES-Pub、MovieGenBench-Music和AIST++数据集上，V2M-Zero相较配对数据基线实现显著提升：音频质量提高5-21%，语义对齐度提升13-15%，时间同步性改善21-52%，舞蹈视频节拍对齐度提升28%。大规模众包主观听力实验也验证了相似结论。总体表明，通过模态内特征而非跨模态监督实现时间对齐，对视频生成音乐任务具有有效性。结果详见https://genjib.github.io/v2m_zero/

一步到位：基于深度泛化模型的单阶段深度补全提示法
Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Mar 5

ByZhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang

精确、稠密的深度估计对机器人感知至关重要，但商用传感器常因硬件限制产生稀疏或不完整的测量数据。现有RGBD融合深度补全方法需联合学习训练RGB分布与特定深度模式下的先验知识，这限制了其领域泛化能力及对多样化深度模式的鲁棒性。近期研究利用单目深度估计模型引入领域通用几何先验，但当前依赖显式相对-绝对尺度对齐的两阶段集成策略会带来额外计算量并引入结构化失真。为此，我们提出Any2Full——一种单阶段、领域通用且模式无关的框架，将深度补全重构为预训练单目深度估计模型的尺度提示自适应任务。针对深度稀疏程度不一和空间分布不规则的问题，我们设计了尺度感知提示编码器，从稀疏输入中提取尺度线索并转化为统一尺度提示，在保持模型几何先验的同时引导其生成全局尺度一致的预测。大量实验表明，Any2Full具备卓越的鲁棒性与效率：其平均AbsREL指标优于OMNI-DC达32.2%，在相同单目深度估计骨干网络下较PriorDA提速1.4倍，为通用深度补全建立了新范式。代码与模型已开源：https://github.com/zhiyuandaily/Any2Full。

代码空间响应预言机：利用大语言模型生成可解释的多智能体策略
Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Mar 10

ByDaniel Hennes, Zun Li, John Schultz, Marc Lanctot

近期多智能体强化学习领域的进展，特别是策略空间响应预言（PSRO）方法，已能在日益复杂的领域中计算近似博弈论均衡解。然而这些方法依赖深度强化学习预言机生成的"黑盒"神经网络策略，导致策略难以解释、信任或调试。我们提出代码空间响应预言（CSRO）这一创新框架，通过用大语言模型替代强化学习预言机来解决此问题。CSRO将最佳响应计算重构为代码生成任务，引导大语言模型直接生成人类可读的代码形式策略。该方法不仅能产出本质可解释的策略，还可利用大语言模型的预训练知识发现复杂的类人策略。我们探索了多种构建增强基于大语言模型预言机的方法：零样本提示、迭代优化以及AlphaEvolve——一个基于分布式大语言模型的进化系统。实验表明CSRO在保持与基线方法相当性能的同时，能生成多样化的可解释策略。本研究为多智能体学习提供了新视角，将重点从优化不透明的策略参数转向合成可解释的算法行为。

EmboAlign：基于组合约束的视频生成对齐技术实现零样本操控
EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Mar 5

ByGehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu

基于大规模互联网数据预训练的视频生成模型能够生成具有时间连贯性的推演视频，这些视频能捕捉丰富的物体动态，为零样本机器人操作提供了有力基础。然而，视频生成模型常产生物理层面不合理的推演结果，且通过几何重定向将其像素空间运动转换为机器人动作时，会因深度估计与关键点跟踪的累积误差而进一步放大问题。为解决这些挑战，我们提出一种无需训练数据的框架，该框架在推理阶段通过视觉语言模型生成的组合约束来校准视频生成模型的输出。其核心思路在于：视觉语言模型具备与视频生成模型互补的能力——即能识别对操作执行成功与安全至关重要的物理约束条件，进行结构化空间推理。给定语言指令后，该框架利用视觉语言模型自动提取一组捕获任务特定需求的组合约束，并分两个阶段实施：(1) 约束引导的推演筛选：对批量视频推演进行评分过滤，保留物理合理性最高的候选序列；(2) 基于约束的轨迹优化：以选定推演作为初始化轨迹，在相同约束集下优化机器人轨迹以修正重定向误差。我们在六项需要精确且约束敏感执行的实体机器人操作任务上评估该框架，在无需任何任务特定训练数据的情况下，相较最强基线模型将整体成功率提升了43.3个百分点。

StyleVLA：面向自动驾驶的驾驶风格感知视觉语言动作模型
StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Mar 10

ByYuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz

视觉语言模型（VLM）架起了视觉感知与语言推理之间的桥梁。在自动驾驶领域，这一融合催生了视觉语言动作模型，能够将高层次多模态理解转化为驾驶行为（通常表现为未来轨迹）。然而，现有VLA模型主要生成通用的避撞轨迹。除避免碰撞外，适应多样化驾驶风格（如运动型、舒适型）对实现个性化驾驶至关重要。此外，许多方法将轨迹生成简化为简单的词元预测，可能产生运动学上不可行的动作。针对这些局限，我们提出StyleVLA——一个融合物理知识的VLA框架，用于生成多样化且符合物理规律的驾驶行为。我们引入结合运动学一致性约束与连续回归头的混合损失函数以提升轨迹可行性。基于Qwen3-VL-4B构建的StyleVLA使用包含1200余个场景、7.6万组鸟瞰图样本和4.2万组第一人称视角样本的大规模指令数据集进行训练，其中包含五种驾驶风格的真值轨迹及自然语言指令。实验表明，我们的40亿参数StyleVLA显著优于专有模型和前沿VLA模型。在综合评估成功率、物理可行性与风格遵从度的驾驶评分中，StyleVLA在鸟瞰图和第一人称视角下分别获得0.55和0.51分，而Gemini-3-Pro仅为0.32和0.35分。这些结果证明，专业化、融合物理知识的轻量化模型能在特定领域任务中超越闭源模型。