HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

53 papers found

CodeOCR：视觉语言模型在代码理解中的有效性探究
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

Feb 2

ByYuling Shi, Chaoxiang Xie, Zhensu Sun, Yeheng Chen, Chenxu Zhang, Longfei Yun, Chengcheng Wan, Hongyu Zhang, David Lo, Xiaodong Gu

大型语言模型（LLMs）在源代码理解领域取得了显著成就，但随着软件系统规模不断扩大，计算效率已成为关键瓶颈。当前这些模型依赖基于文本的范式，将源代码视为线性标记序列，这导致上下文长度及相关计算成本呈线性增长。多模态大语言模型（MLLMs）的快速发展为优化效率提供了新思路——通过将源代码渲染为图像进行表示。与难以在不损失语义的情况下压缩的文本不同，图像模态天然适合压缩处理。通过调整分辨率，图像可被压缩至原始标记成本的极小比例，同时仍能被视觉模型识别。为探索该方法的可行性，我们首次系统性地研究了MLLMs在代码理解中的有效性。实验表明：（1）MLLMs能以大幅缩减的标记量有效理解代码，最高实现8倍压缩；（2）MLLMs能有效利用语法高亮等视觉线索，在4倍压缩下提升代码补全性能；（3）代码克隆检测等理解任务对视觉压缩表现出卓越的耐受性，部分压缩比甚至略优于原始文本输入。我们的发现既揭示了MLLMs在代码理解中的潜力与当前局限，也指明了向图像模态代码表示转型是实现更高效推理的重要路径。

AOrchestra：面向智能体编排的自动化子智能体生成框架
AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

Feb 3

ByJianhao Ruan, Zhihao Xu, Yiran Peng, Fashen Ren, Zhaoyang Yu, Xinbing Liang, Jinyu Xiang, Bang Liu, Chenglin Wu, Yuyu Luo, Jiayi Zhang

语言智能体在任务自动化方面展现出巨大潜力。为实现处理日益复杂的长期任务这一目标，子智能体即工具范式应运而生，用于多轮次任务求解。然而，现有设计仍缺乏对子智能体的动态抽象视角，从而影响系统适应性。我们通过提出统一的框架无关型智能体抽象模型解决这一挑战，该模型将任意智能体表征为四元组（指令、上下文、工具、模型）。该四元组作为能力组合的配方，使系统能够按需为每个任务生成专用执行器。基于此抽象模型，我们推出智能体化系统AOrchestra，其核心协调器在每一步动态实例化四元组：策划任务相关上下文、选择工具与模型、通过实时自动创建智能体实现任务委派。这种设计能有效减少人工工程成本，保持框架无关性并支持即插即用的多样化智能体作为任务执行器。同时支持可控的性能-成本权衡，使系统趋近帕累托最优。在三大挑战性基准测试（GAIA、SWE-Bench、Terminal-Bench）中，AOrchestra配合Gemini-3-Flash相比最强基线实现16.28%的相对性能提升。代码已开源：https://github.com/FoundationAgents/AOrchestra

思维链中无全局规划：揭示大语言模型的潜在规划视界
No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

Feb 2

ByLiyan Xu, Mo Yu, Fandong Meng, Jie Zhou

本研究源于对思维链动态的先前互补性观察：大型语言模型在思维链显化前已展现出潜在规划能力，从而削弱了显式思维链的重要性；然而对于需要多步推理的任务，思维链仍具有关键作用。为深入理解LLM内部状态与其言语化推理轨迹之间的关系，我们通过探测方法Tele-Lens对跨任务域的隐藏状态进行研究，探究LLM的潜在规划能力。实证结果表明，LLM表现出短视特性，主要进行增量式状态转移而非精确的全局规划。基于此特性，我们提出一种增强思维链不确定性估计的假设，并验证了仅需少量关键思维链节点即可有效表征完整路径的不确定性。我们进一步强调了利用思维链动态特征的重要性，证明无需性能损失即可实现思维链捷径的自动识别。相关代码、数据及模型已发布于https://github.com/lxucs/tele-lens。

MARS：具备反思性搜索的模块化智能体，赋能自动化人工智能研究
MARS: Modular Agent with Reflective Search for Automated AI Research

Feb 2

ByJiefeng Chen, Bhavana Dalvi Mishra, Jaehyun Nam, Rui Meng, Tomas Pfister, Jinsung Yoon

自动化AI研究与通用软件工程存在显著差异，主要体现在计算密集型的评估过程（如模型训练）和难以追溯的性能归因。当前基于大语言模型的智能体在此领域表现欠佳，往往生成忽视执行成本与因果关系的单一脚本。我们提出MARS（具备反思搜索的模块化智能体）——专为自主AI研究优化的框架。该框架依托三大支柱：（1）通过成本约束的蒙特卡洛树搜索实现预算感知规划，显式平衡性能与执行开销；（2）采用“设计-分解-实现”流水线的模块化构建，有效管理复杂研究代码库；（3）比较式反思记忆机制，通过分析解决方案差异提炼高价值洞见，解决功劳分配难题。在同等设置下，MARS在MLE-Bench上实现了开源框架中的最先进性能，与全球排行榜顶尖方法保持竞争力。此外，系统展现出质变的“顿悟”时刻——63%的有效经验源自跨分支迁移，这表明智能体能够有效实现搜索路径间的认知泛化。

面向视角自适应人体视频生成的3D感知隐式运动控制
3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Feb 3

ByZhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai

现有视频生成中的人体运动控制方法通常依赖2D姿态或显式3D参数化模型（如SMPL）作为控制信号。然而，2D姿态会将运动 rigidly 绑定到驱动视角，无法实现新视角合成。显式3D模型虽具有结构信息优势，但存在固有缺陷（如深度歧义与动态不精确），当作为强约束使用时，会压制大规模视频生成器强大的内在3D感知能力。本文从3D感知视角重新审视运动控制，提出一种隐式的、视角无关的运动表征方式，使其自然契合生成器的空间先验，而非依赖外部重建的约束。我们提出3DiMo方法，通过联合训练运动编码器与预训练视频生成器，将驱动帧蒸馏为紧凑的视角无关运动标记，并借助交叉注意力进行语义注入。为增强3D感知能力，我们采用多视角监督（包括单视角、多视角及运动摄像机视频）进行训练，强制模型在不同视角下保持运动一致性。此外，通过辅助几何监督——仅利用SMPL进行早期初始化并逐步退火至零——使模型能够从外部3D指导过渡到从数据及生成器先验中学习真实的3D空间运动理解。实验证实，3DiMo能准确复现驱动运动并支持灵活的文本驱动摄像机控制，在运动保真度与视觉质量上均显著超越现有方法。

daVinci-Agency：高效解锁长程智能体数据
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Feb 2

ByMohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu

尽管大语言模型在短期任务中表现出色，但将其扩展至长周期智能体工作流仍面临挑战。核心瓶颈在于缺乏能够捕捉真实长依赖结构和跨阶段演进动态的训练数据——现有合成方法要么受限于模型分布而局限于单一特征场景，要么需要高昂的人工标注成本，无法提供可扩展的高质量监督信号。我们通过重新构想软件真实演进过程中的数据合成机制来解决这一问题。核心洞见在于：代码拉取请求序列天然蕴含了长周期学习所需的监督信号。它们将复杂目标分解为可验证的提交单元，在迭代过程中保持功能一致性，并通过错误修复历史编码真实的优化模式。基于此，我们提出daVinci-Agency框架，通过三个联动机制从PR链中系统化挖掘结构化监督信号：（1）通过连续提交实现渐进式任务分解；（2）通过统一功能目标实施长期一致性约束；（3）基于真实错误修复轨迹进行可验证的优化。与将各步骤独立处理的合成轨迹不同，daVinci-Agency基于PR的框架本质保留了因果依赖关系和迭代优化过程，这对于培养持续目标导向行为至关重要，并能自然契合项目级全周期任务建模。生成的轨迹规模可观——平均包含8.5万词元和116次工具调用——却具有显著的数据效率：使用239个daVinci-Agency样本对GLM-4.6进行微调，在多项基准测试中实现广泛提升，尤其在Toolathlon基准上相对提升达47%。除基准性能外，我们的分析进一步证实...

世界模型研究并非简单将世界知识注入特定任务
Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

Feb 2

ByBohan Zeng, Kaixin Zhu, Daili Hua, Bozhou Li, Chengzhuo Tong, Yuran Wang, Xinyi Huang, Yifan Dai, Zixiang Zhang, Yifan Yang, Zhou Liu, Hao Liang, Xiaochen Ma, Ruichuan An, Tianyi Bai, Hongcheng Gao, Junbo Niu, Yang Shi, Xinlong Chen, Yue Ding, Minglei Shi, Kai Zeng, Yiwen Tang, Yuanxing Zhang, Pengfei Wan, Xintao Wang, Wentao Zhang

世界模型已成为人工智能研究的关键前沿，其核心目标是通过融入物理动态与世界知识来增强大模型能力，使智能体能够理解、预测并交互复杂环境。然而当前研究格局仍显碎片化，现有方法主要集中于将世界知识注入孤立任务——如视觉预测、三维估计或符号落地——而非建立统一的理论定义或框架。尽管这些任务特定型整合能提升性能，但往往缺乏实现整体世界理解所需的系统性关联。本文剖析了此类碎片化方法的局限性，并提出世界模型的统一设计规范。我们认为稳健的世界模型不应是能力的松散集合，而应成为融合交互、感知、符号推理与空间表征的规范性框架。本研究旨在提供结构化视角，以引导未来研究朝着更具通用性、鲁棒性和原则性的世界模型方向发展。

多样性保持的分布匹配蒸馏技术实现快速视觉合成
Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

Feb 3

ByTianhe Wu, Ruibin Li, Lei Zhang, Kede Ma

分布匹配蒸馏（DMD）通过将多步生成器与其少步对应模型对齐，实现在低推理成本下的高质量生成。然而，DMD易出现模式崩溃问题，因其反向KL散度公式天然倾向于模式聚焦行为。现有改进方法通常依赖感知或对抗正则化，但会带来显著的计算开销与训练不稳定性。本研究提出一种角色分离蒸馏框架，显式解耦蒸馏步骤的职能：首步通过目标预测（如v预测）目标专注于保持样本多样性，后续步骤则在标准DMD损失下聚焦质量优化，且DMD目标在首步的梯度被阻断。我们将该方法命名为多样性保持型DMD（DP-DMD）。尽管方案简洁——无需感知主干网络、判别器、辅助网络或额外真实图像——该方案在大量文生图实验中既能保持样本多样性，其视觉质量也与最先进方法持平。

SWE-World：在无Docker环境中构建软件工程智能体
SWE-World: Building Software Engineering Agents in Docker-Free Environments

Feb 3

ByShuang Sun, Huatong Song, Lisheng Huang, Jinhao Jiang, Ran Le, Zhihao Lv, Zongchao Chen, Yiwen Hu, Wenyang Luo, Wayne Xin Zhao, Yang Song, Hongteng Xu, Tao Zhang, Ji-Rong Wen

近期大语言模型（LLM）的突破使得软件工程智能体能够处理复杂的代码修改任务。现有方法大多依赖容器化环境的执行反馈，这需要完整的依赖项配置及程序与测试的物理执行。虽然有效，但该范式资源消耗大且维护困难，显著增加了智能体训练复杂度并限制了可扩展性。我们提出SWE-World——一种无需Docker的框架，通过学习的替代模型取代物理执行环境来训练和评估软件工程智能体。该框架基于真实智能体-环境交互数据训练的LLM模型，可预测中间执行结果和最终测试反馈，使智能体无需与物理容器环境交互即可学习。这一设计在保持标准智能体-环境交互循环的同时，消除了智能体优化与评估过程中昂贵的环境构建和维护成本。此外，由于SWE-World能模拟候选轨迹的最终评估结果而无需真实提交，它支持在多次测试尝试中选择最优解，从而促进软件工程任务中有效的测试时扩展（TTS）。在SWE-bench Verified上的实验表明，SWE-World通过无Docker监督微调将Qwen2.5-Coder-32B的性能从6.2%提升至52.0%，经无Docker强化学习达到55.0%，进一步结合TTS后达到68.2%。代码已开源：https://github.com/RUCAIBox/SWE-World

SWE-Master：通过后训练释放软件工程智能体的潜力
SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Feb 3

ByHuatong Song, Lisheng Huang, Shuang Sun, Jinhao Jiang, Ran Le, Daixuan Cheng, Guoxin Chen, Yiwen Hu, Zongchao Chen, Wayne Xin Zhao, Yang Song, Tao Zhang, Ji-Rong Wen

在本技术报告中，我们推出SWE-Master——一个开源且完全可复现的后训练框架，用于构建高效的软件工程智能体。该框架系统性地探索了完整的智能体开发流程，包括教师轨迹合成与数据筛选、长周期监督微调、基于真实执行反馈的强化学习以及推理框架设计。以初始软件工程能力有限的开源基础模型为起点，SWE-Master展示了系统化优化方法如何激发强大的长周期软件工程任务解决能力。我们在SWE-bench Verified（现实软件工程任务的标准基准测试）上评估SWE-Master，在相同实验设置下，基于Qwen2.5-Coder-32B模型的方案实现了61.4%的问题解决率，显著超越现有开源基线。通过进一步结合基于LLM的环境反馈进行测试时扩展，SWE-Master在TTS@8设置下达到70.8%的解决率，展现出强劲的性能潜力。该框架为推进软件工程智能体的可复现研究提供了实用且透明的基石。代码已开源：https://github.com/RUCAIBox/SWE-Master。

CoBA-RL：面向大语言模型强化学习的能效导向预算分配
CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

Feb 3

ByZhiyuan Yao, Yi-Kai Zhang, Yuxin Chen, Yueqing Sun, Zishan Xu, Yu Yang, Tianhao Hu, Qi Gu, Hui Su, Xunliang Cai

可验证奖励强化学习（RLVR）已成为提升大语言模型推理能力的关键方法。然而，诸如群体相对策略优化（GRPO）等标准框架通常采用统一的模拟预算，导致资源利用效率低下。此外，现有自适应方法往往依赖任务通过率等实例级指标，难以捕捉模型的动态学习状态。为解决这些局限性，我们提出CoBA-RL算法——一种基于模型能力演进自适应分配模拟预算的强化学习方法。该算法通过能力导向价值函数将任务映射至潜在训练收益，并采用基于堆结构的贪心策略，高效地将计算资源自校准分配至高训练价值样本。大量实验表明，我们的方法能有效协调探索与利用的平衡，在多个挑战性基准测试中实现持续泛化提升。这些发现印证了量化样本训练价值与优化预算分配对推进大语言模型后训练效率的关键作用。

基于人类偏好的深度研究报告生成中查询特定评分规则学习
Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

Feb 3

ByChangze Lv, Jie Zhou, Wentao Zhao, Jingwen Xu, Zisu Huang, Muzhao Tian, Shihan Dou, Tao Gui, Le Tian, Xiao Zhou, Xiaoqing Zheng, Xuanjing Huang, Jie Zhou

当前，由于缺乏可验证的奖励信号，对深度研究报告的训练与评估仍具挑战性。因此，基于量规的评估方法已成为常见实践。然而，现有方案要么依赖粗糙的预定义量规而缺乏足够粒度，要么采用人工构建的查询专用量规导致成本高昂且难以扩展。本文提出一种训练流程，旨在开发符合人类偏好的查询专用量规生成器，专门用于深度研究报告生成。我们首先构建了包含深度研究类查询及人类对报告对偏好的标注数据集，随后通过结合人类偏好监督与基于大语言模型的量规评估的混合奖励，采用强化学习训练量规生成器。为更好地处理长程推理，我们进一步引入了多智能体马尔可夫状态工作流用于报告生成。实验表明，相较于现有量规设计策略，我们提出的量规生成器能提供区分度更高且更符合人类偏好的监督信号。此外，当融入多智能体马尔可夫状态训练框架时，配备本量规生成器的深度研究系统在DeepResearch Bench上持续超越所有开源基线，并达到与领先闭源模型相当的性能水平。

并行探针：基于二维探测的高效并行思维方法
Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

Feb 3

ByTong Zheng, Chengsong Huang, Runpeng Dai, Yun He, Rui Liu, Xin Ni, Huiwen Bao, Kaishen Wang, Hongtu Zhu, Jiaxin Huang, Furong Huang, Heng Huang

并行思维已成为一种前景广阔的推理范式，但其计算负担较重。现有优化方法主要依赖局部单轨迹信号，缺乏利用并行分支间全局动态的机制。我们提出二维探针技术，通过定期获取所有分支的中间答案来揭示并行思维的宽度-深度动态。分析揭示三大关键发现：宽度-深度分配的非单调缩放特性、推理分支长度的异质性，以及全局共识的早期稳定化。基于这些发现，我们提出无需训练的控制器Parallel-Probe，可在线优化并行思维。该控制器采用基于共识的早停机制调控推理深度，通过偏差感知的分枝剪裁动态调整宽度。在三个基准测试和多种模型上的实验表明，Parallel-Probe实现了更优的测试时缩放帕累托边界。与标准多数投票法相比，在保持精度的同时将序列令牌数减少35.8%，总令牌成本降低超25.8%。

视觉生成统一个性化奖励模型
Unified Personalized Reward Model for Vision Generation

Feb 2

ByYibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang

近年来，多模态奖励模型的突破性进展显著推动了视觉生成领域的发展。现有框架通常采用布拉德利-特里式偏好建模或利用生成式视觉语言模型作为评判器，继而通过强化学习优化视觉生成模型。然而当前奖励模型存在固有局限：它们往往遵循"一刀切"范式，要么假设统一的偏好分布，要么依赖固定评估标准，导致对内容特异性视觉线索不敏感，从而与主观且具语境依赖性的人类偏好产生系统性偏差。受人类评估机制启发，我们提出UnifiedReward-Flex——一种融合奖励建模与柔性语境自适应推理的统一个性化视觉生成奖励模型。具体而言，给定提示词与生成视觉内容，该模型首先解析语义意图并基于视觉证据进行锚定，随后通过预定义和自主生成的双层级维度实例化细粒度标准，动态构建分层评估体系。我们的训练流程采用两阶段策略：（1）首先从先进闭源视觉语言模型中蒸馏高质量结构化推理轨迹，通过监督微调赋予模型柔性语境自适应推理能力；（2）进而对精心构建的偏好对进行直接偏好优化，进一步增强推理保真度与判别对齐效果。为验证有效性，我们将UnifiedReward-Flex集成至GRPO框架进行图像与视频生成实验，大量结果表明其优越性。

RANKVIDEO：基于推理重排序的文本到视频检索方法
RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

Feb 2

ByTyler Skow, Alexander Martin, Benjamin Van Durme, Rama Chellappa, Reno Kriz

重排序是现代检索系统的关键组成部分，通常将高效的一阶段检索器与更具表现力的模型结合以优化结果。尽管大型推理模型在文本重排序领域取得快速进展，但基于推理的视频检索重排序研究仍显不足。为此，我们提出RANKVIDEO——一种基于推理的视频重排序模型，其通过显式分析查询-视频对的视频内容来评估相关性。该模型采用两阶段课程训练：首先进行基于感知的监督微调，随后结合点对点、成对和教师置信度蒸馏目标进行重排序训练，并辅以构建推理密集型查询-视频对的数据合成流程。在大型MultiVENT 2.0基准测试上的实验表明，RANKVIDEO在双阶段框架内持续提升检索性能，nDCG@10指标平均提升31%，优于纯文本和视觉语言重排序方案，同时具备更高效率。

离散扩散模型中理解与生成的平衡
Balancing Understanding and Generation in Discrete Diffusion Models

Feb 1

ByYue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu

在离散生成建模领域，两种主流范式展现出差异化能力：掩码扩散语言模型（MDLM）擅长语义理解和零样本泛化，而均匀噪声扩散语言模型（UDLM）则能实现优质少步生成，但二者均未能在理解与生成维度取得平衡。为此，我们提出XDLM模型，通过稳态噪声核桥接这两种范式。XDLM具有两大核心贡献：（1）从理论层面统一MDLM与UDLM，将二者转化为该框架的特例；（2）通过后验概率的代数简化缓解内存瓶颈。实验表明XDLM成功推进了理解能力与生成质量的帕累托前沿。量化结果显示，XDLM在零样本文本基准上超越UDLM达5.4分，在少步图像生成中显著优于MDLM（FID指标54.1对80.8）。当扩展至80亿参数大语言模型调优时，XDLM仅用32步即达到15.0的MBPP评分，实现基线性能翻倍。训练动态分析进一步揭示了XDLM具备长期扩展优势。代码已开源：https://github.com/MzeroMiko/XDLM

神经预测校正器：基于强化学习的同伦问题求解
Neural Predictor-Corrector: Solving Homotopy Problems with Reinforcement Learning

Feb 3

ByJiayao Mai, Bangyan Liao, Zhenjun Zhao, Yingping Zeng, Haoang Li, Javier Civera, Tailin Wu, Yi Zhou, Peidong Liu

同伦范式作为解决复杂问题的通用原理，广泛存在于鲁棒优化、全局优化、多项式求根和采样等多个领域。针对这些问题的实际求解器通常采用预测-校正（PC）结构，但依赖人工设计的步长与迭代终止启发式规则，这些规则往往非最优且局限于特定任务。为此，我们构建了统一框架将这些问题整合，从而设计出通用神经求解器。基于此统一视角，我们提出神经预测-校正器（NPC），用自动学习的策略替代人工启发式规则。NPC将策略选择建模为序列决策问题，并利用强化学习自动发现高效策略。为进一步增强泛化能力，我们引入分摊训练机制，能够针对一类问题实现一次性离线训练，并在新实例上实现高效在线推理。在四个典型同伦问题上的实验表明，本方法能有效泛化至未见实例，在效率上持续超越经典及专用基线方法，同时展现出跨任务的卓越稳定性，彰显了将同伦方法统一至神经框架的重要价值。

WideSeek：通过多智能体规模化推进广度研究
WideSeek: Advancing Wide Research via Multi-Agent Scaling

Feb 2

ByZiyang Huang, Haolin Ren, Xiaowei Yuan, Jiawei Wang, Zhongtao Jiang, Kun Xu, Shizhu He, Jun Zhao, Kang Liu

搜索智能正从深度研究向广度研究演进，这种范式对于在复杂约束条件下并行检索与综合全面信息至关重要。然而，该领域的发展因缺乏针对搜索广度的专用基准与优化方法而受阻。为解决这些挑战，我们从数据管道和智能体优化两个维度对广度研究展开深入探索。首先，我们通过严格的多阶段数据管道构建了WideSeekBench——一个通用广域信息搜寻基准，确保目标信息量、逻辑约束和领域维度的多样性。其次，我们提出WideSeek动态分层多智能体架构，能够根据任务需求自主派发并行子智能体。此外，我们设计了统一训练框架，通过线性化多智能体轨迹并采用端到端强化学习进行系统优化。实验结果表明WideSeek与多智能体强化学习的有效性，证明扩展智能体数量是推进广度研究范式的可行方向。

令牌稀疏注意力：通过交错令牌选择实现高效长上下文推理
Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

Feb 3

ByDongwon Jo, Beomseok Kang, Jiwon Song, Jae-Joon Kim

注意力机制的二次复杂度一直是制约大语言模型长上下文推理的核心瓶颈。现有加速方法要么采用结构化模式对注意力图进行稀疏化处理，要么在特定层级永久淘汰部分词元，这些方法可能保留无关词元或依赖不可逆的早期决策，未能充分考虑词元重要性在不同层级和注意力头间的动态特性。本文提出词元稀疏注意力机制，这是一种轻量级动态词元级稀疏化方法：在注意力计算过程中将每个注意力头的Q、K、V压缩至精简词元集合，随后将输出解压缩回原始序列，使得词元信息能在后续层级被重新评估。该机制在词元选择与稀疏注意力的交叉领域开辟了新的设计维度。我们的方案与稠密注意力实现（包括Flash Attention）完全兼容，并能与现有稀疏注意力内核无缝集成。实验结果表明，词元稀疏注意力能持续优化准确率与延迟的权衡关系，在128K上下文长度下实现最高3.23倍的注意力加速，且准确率损失不足1%。这些发现证明，动态交错式的词元级稀疏化是实现可扩展长上下文推理的有效互补策略。

直播：长时程交互式视频世界建模
LIVE: Long-horizon Interactive Video World Modeling

Feb 3

ByJunchao Huang, Ziyang Ye, Xinting Hu, Tianyu He, Guiyu Zhang, Shaoshuai Shi, Jiang Bian, Li Jiang

自回归视频世界模型通过动作条件预测未来视觉观测。尽管在短时域内表现有效，但此类模型常因微小预测误差随时间累积而难以进行长时域生成。现有方法通过引入预训练教师模型和序列级分布匹配来缓解此问题，但这会带来额外计算成本，且无法阻止误差超出训练时域的传播。本研究提出LIVE（长时域交互式视频世界模型），通过新颖的循环一致性目标强制约束误差累积范围，从而无需基于教师的蒸馏。具体而言，LIVE首先生成基于真实帧的前向推演，随后执行反向生成过程以重建初始状态。扩散损失函数最终在重建的终止状态上计算，为长时域误差传播提供显式约束。此外，我们提出了统合不同方法的理论框架，并引入渐进式训练课程以稳定训练过程。实验表明，LIVE在长时域基准测试中达到最先进性能，能生成远超训练推演长度的稳定高质量视频。

降噪增声：基于指令净化的强化学习推理方法
Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

Jan 29

ByYiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin

基于可验证奖励的强化学习（RLVR）虽已推动大语言模型推理能力发展，但在有限采样预算下仍受低效探索制约，导致复杂任务中采样成功率低且训练不稳定。我们发现许多探索失败并非源于问题难度，而是由少数引发干扰的提示词所致。基于此，我们提出低噪声采样框架（LENS）：首先通过识别并剔除干扰词实现提示净化，随后将净化过程中的成功采样结果迁移至原始含噪提示，监督策略优化过程，使模型学会在真实噪声提示环境中忽略干扰。实验表明LENS显著优于GRPO，性能提升3.88%且收敛速度加快1.6倍以上。本研究揭示了剔除干扰词对提升采样效率的关键作用，为RLVR研究提供了新视角。

Privasis：从零构建最大规模的"公共"私有数据集
Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch

Feb 3

ByHyunwoo Kim, Niloofar Mireshghallah, Michael Duan, Rui Xin, Shuyue Stella Li, Jaehun Jung, David Acuna, Qi Pang, Hanshen Xiao, G. Edward Suh, Sewoong Oh, Yulia Tsvetkov, Pang Wei Koh, Yejin Choi

涉及隐私敏感数据的研究长期受限于数据稀缺性，与其他受益于数据规模化的领域形成鲜明对比。随着现代AI智能体（如OpenClaw和Gemini Agent）被授予持续访问高度敏感个人信息的权限，这一挑战日益紧迫。为突破这一长期瓶颈并应对日益增长的风险，我们推出首个完全从零构建的百万规模全合成数据集Privasis（即隐私绿洲）——该数据集构建了包含丰富多样隐私信息的文本资源库，旨在推动那些必须处理敏感社会数据的研究领域的发展。相较于现有数据集，包含140万条记录的Privasis在保证质量的前提下实现了数量级的规模突破，其文档类型覆盖医疗记录、法律文书、财务档案、日程安排及短信等，呈现出远超以往的多样性，并标注了共计5510万个属性特征（如种族、出生日期、工作单位等）。我们基于Privasis构建了用于文本脱敏的平行语料库，通过分解文本并实施定向脱敏的流程进行训练。基于该数据集训练的紧凑型脱敏模型（≤40亿参数）在性能上超越了GPT-5、Qwen-3 235B等最先进的大语言模型。我们将公开数据、模型及代码，以加速隐私敏感领域及智能体的未来研究。

全栈智能体：通过面向开发的测试与代码库回译增强全栈Web编程的代理能力
FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Feb 3

ByZimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Mingjie Zhan, Hongsheng Li

协助非专业用户开发复杂交互式网站已成为LLM驱动代码智能体的热门任务。然而现有代码智能体往往仅能生成前端网页，用花哨的视觉效果掩盖了真实全栈数据处理与存储能力的缺失。值得注意的是，构建生产级全栈网络应用远比单纯生成前端页面更具挑战性，需要精细控制数据流、全面理解持续更新的软件包与依赖关系，并准确定位代码库中的隐蔽错误。为应对这些难题，我们提出FullStack-Agent——一个统一的全栈智能编码系统，包含三个核心部分：（1）FullStack-Dev：具备强大概划能力、代码编辑、代码库导航及错误定位功能的多智能体框架；（2）FullStack-Learn：创新的数据扩展与自改进方法，通过对爬取及合成的网站仓库进行回译训练来提升FullStack-Dev主干LLM的性能；（3）FullStack-Bench：系统性测试生成网站前端、后端及数据库功能的综合基准。实验表明，FullStack-Dev在前端、后端和数据库测试用例上分别以8.7%、38.2%和15.9%的优势超越此前最优方法。此外，FullStack-Learn通过自改进使30B模型在三类测试用例上的性能分别提升9.7%、9.5%和2.8%，证明了我们方法的有效性。代码已发布于https://github.com/mnluzimu/FullStack-Agent。

AdaptMMBench：面向模式选择与推理过程的自适应多模态推理基准评测
AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

Feb 2

ByXintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li

自适应多模态推理已成为视觉语言模型领域的前沿方向，其目标是通过动态调节工具增强的视觉推理与文本推理来提升效能与效率。然而现有评估方法依赖静态难度标签和单一指标，无法捕捉难度随模型能力变化的动态特性，导致难以区分自适应模式选择与通用性能的差异，同时缺乏细粒度的过程分析。本文提出AdaptMMBench这一综合性基准测试，涵盖现实场景、文字识别、图形界面、知识应用和数学推理五大领域，包含直接感知与复杂推理双重任务。该基准采用马修斯相关系数量化评估不同推理模式的选择合理性，通过基于模型能力边界动态识别任务难度，实现对元认知能力的独立衡量。此外，AdaptMMBench支持从关键步骤覆盖度、工具效用和计算效率三个维度进行过程评估。实验表明：自适应模式选择能力虽随模型规模提升，但与最终准确率显著解耦；关键步骤覆盖度与性能表现正相关，而工具效用在各模型架构间仍存在显著波动。

解耦搜索与训练：基于模型融合的大规模语言模型预训练数据混合扩展方法
Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

Jan 31

ByShengrui Li, Fei Zhao, Kaiyan Zhao, Jieying Ye, Haifeng Liu, Fangcheng Shi, Zheyong Xie, Yao Hu, Shaosheng Cao

确定有效的数据混合比例是大型语言模型预训练的关键因素，模型需要在通用能力与数学、代码等高难度任务专长之间取得平衡。然而现有方法要么依赖不可靠的小规模代理实验，要么需进行成本高昂的大规模探索，导致最优混合比例的确定仍具挑战。为此，我们提出解耦训练混合搜索框架DeMix，该创新方案通过模型融合来预测最优数据配比。与为每个采样混合比例训练代理模型不同，DeMix首先对候选数据集进行规模化组件模型训练，再通过加权模型融合推导数据混合代理指标。这种范式将搜索过程与训练成本解耦，可在无需额外训练负担的情况下评估无限采样混合方案，从而通过更多搜索尝试发现更优配比。大量实验表明，DeMix打破了充分性、准确性与效率之间的权衡关系，能以更低搜索成本获得基准性能更优的混合方案。此外，我们开源了DeMix Corpora——一个包含22万亿token高质量预训练数据及已验证混合方案的综合性数据集，以推动开放研究。相关代码与DeMix Corpora数据集详见https://github.com/Lucius-lsr/DeMix。

荔枝解码：基于混合头稀疏解码的长上下文大语言模型推理加速
LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

Feb 4

ByGang Lin, Dongfang Li, Zhuoen Chen, Yukun Shi, Xuhui Chen, Baotian Hu, Min Zhang

长上下文大语言模型（LLMs）的普及暴露了一个关键瓶颈：解码过程中快速扩张的键值缓存带来了沉重的内存与延迟开销。现有方法尝试通过跨层共享单一关键令牌集来缓解这一问题，但此类粗粒度共享方案忽视了注意力头功能的多样性，反而损害了模型性能。为此，我们提出LycheeDecode——一种以细粒度混合注意力头机制为核心的高效解码方法，该方法采用硬件友好的top-k选择策略。具体而言，基于HardKuma的新颖机制将注意力头划分为两类：少量检索头动态识别关键令牌，多数稀疏头复用这些令牌以实现高效计算。通过在Llama3、Qwen3等主流模型上开展广泛实验，覆盖长文本理解（如LongBench、RULER）和复杂推理（如AIME24、OlympiadBench）等多类评测基准，我们证明LycheeDecode的生成质量可媲美甚至部分超越全注意力基线。关键的是，在128K上下文长度下该方法可实现最高2.7倍的加速效果。通过保留注意力头的功能多样性，我们的细粒度策略突破了现有方法的性能瓶颈，为长上下文LLM推理提供了一条兼顾高效与高质量的可行路径。

LRAgent：面向多LoRA大语言模型代理的高效KV缓存共享方案
LRAgent: Efficient KV Cache Sharing for Multi-LoRA LLM Agents

Feb 1

ByHyesung Jeon, Hyeongju Ha, Jae-Joon Kim

在多LLM智能体系统中，角色特化通常通过多LoRA适配器实现——智能体共享预训练主干网络，仅通过轻量级适配器区分。尽管共享基础模型权重，但各智能体会为相同的长工具增强轨迹独立构建并存储各自的KV缓存，导致显著的内存与计算开销。现有KV缓存共享方法大多忽视了这种多LoRA场景。我们观察到，不同智能体间的缓存差异主要由适配器输出主导，而共享预训练主干网络的激活值仍保持高度相似。基于此发现，我们提出LRAgent框架：通过将缓存分解为预训练权重产生的共享基础组件和LoRA权重产生的适配器相关组件，该框架既通过共享基础组件降低内存开销，又以固有低秩形式存储适配器组件。借助支持共享注意力的多LoRA架构，LRAgent进一步通过共享低秩缓存、避免对其他智能体已处理上下文的冗余计算来降低计算开销。为实现运行时高效重构适配器贡献，我们提出Flash-LoRA-Attention核函数，通过重排序注意力计算避免将低秩缓存展开至完整维度。实验表明，LRAgent在智能体问答基准测试中实现了接近全共享缓存的吞吐量与首词延迟，同时保持与非共享缓存基线相当的准确度。

文化无捷径：面向复杂文化理解的印尼多跳问答研究
No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding

Feb 3

ByVynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras

理解文化需要跨越语境、传统与隐性社会知识进行推理，这远非简单回忆孤立事实所能及。然而现有文化类问答基准大多依赖单跳问题，可能导致模型利用浅层线索而非展现真正的文化推理能力。本研究推出ID-MoCQA——首个基于印尼传统文化的大规模多跳问答数据集，提供英语与印尼语双版本，用于评估大语言模型的文化理解能力。我们提出一种创新框架，能系统地将单跳文化问题转化为涵盖六种线索类型（如常识、时间、地理）的多跳推理链。通过结合专家评审与LLM评判过滤的多阶段验证流程，我们确保了问答对的高质量。对前沿模型的评估结果显示，其在文化推理方面存在显著差距，尤其在需要精细推理的任务上。ID-MoCQA为推动大语言模型文化能力发展提供了具有挑战性的重要基准。

指令锚点：解构模态仲裁的因果动态机制
Instruction Anchors: Dissecting the Causal Dynamics of Modality Arbitration

Feb 3

ByYu Zhang, Mufan Xu, Xuefeng Bai, Kehai chen, Pengfei Zhang, Yang Xiang, Min Zhang

模态遵循能力是多模态大语言模型（MLLMs）根据用户指令选择性利用多模态语境的核心机制，对于确保实际应用中的安全性与可靠性至关重要。然而，这一决策过程的内部运作机制尚不明确。本文通过信息流视角探究其工作原理，发现指令标记在模态仲裁中发挥结构性锚点作用：浅层注意力层进行非选择性信息传递，将多模态线索路由至这些锚点形成潜在缓冲；深层注意力层在指令意图引导下解决模态竞争，而MLP层则表现出语义惯性，形成对抗性调节力。此外，我们识别出驱动该仲裁过程的稀疏化专用注意力头群。因果干预实验表明，仅需操控5%的关键注意力头即可通过阻塞使模态遵循率降低60%，或通过针对性增强失败样本使其提升60%。本研究为增强模型可解释性提供了重要突破，并为多模态信息的协调管理建立了理论框架。

搜索-R2：通过执行者-精炼者协作增强搜索集成推理能力
Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration

Feb 3

ByBowei He, Minda Hu, Zenan Xu, Hongru Wang, Licheng Zong, Yankai Chen, Chen Ma, Xue Liu, Pluto Zhou, Irwin King

搜索集成推理使语言智能体能够通过主动查询外部源来超越静态参数化知识。然而，通过强化学习训练这些智能体面临多尺度信用分配问题：现有方法通常依赖稀疏的轨迹级奖励，无法区分高质量推理与偶然猜测，导致冗余或误导性的搜索行为。为此，我们提出Search-R2——一种新颖的“执行者-优化器”协作框架，通过定向干预增强推理能力，两个组件在训练过程中联合优化。该框架将生成过程分解为执行者（生成初始推理轨迹）和元优化器（通过“截断-再生”机制选择性诊断并修复缺陷步骤）。为提供细粒度监督，我们设计了混合奖励机制，将结果正确性与量化检索证据信息密度的密集过程奖励相结合。理论层面，我们将执行者-优化器交互形式化为平滑混合策略，证明选择性修正相较强基线能带来严格性能提升。在多种通用及多跳问答数据集上的实验表明，Search-R2在不同模型规模下均持续优于基于RAG和强化学习的强基线，以最小开销实现更优的推理准确率。

WorldVQA：评估多模态大语言模型中的原子世界知识
WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

Jan 28

ByRunjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou

我们推出WorldVQA基准测试，旨在评估多模态大语言模型（MLLMs）的原子化视觉世界知识。与当前常将视觉知识检索与推理能力混为一谈的评估方式不同，WorldVQA通过解耦这两项能力来严格衡量“模型记忆的内容”。该基准通过分层分类体系（从常见头部类别对象到长尾稀缺实体）评估模型对视觉实体的定位与命名能力。我们期望WorldVQA能成为视觉事实性的严格检验标准，从而为评估当前及下一代前沿模型的百科全书式知识广度与幻觉率建立规范。

主体性进化：大型语言模型的演进之路
Position: Agentic Evolution is the Path to Evolving LLMs

Jan 30

ByMinhua Lin, Hanqing Lu, Zhan Shi, Bing He, Rui Mao, Zhiwei Zhang, Zongyu Wu, Xianfeng Tang, Hui Liu, Zhenwei Dai, Xiang Zhang, Suhang Wang, Benoit Dumoulin, Jian Pei

随着大语言模型从精心策划的训练集迈向开放式的真实世界环境，一个根本性局限逐渐显现：静态训练无法跟上持续变化的部署环境节奏。扩大训练时与推理时的计算规模虽能提升静态能力，却无法弥合训练与部署之间的鸿沟。我们认为，解决这一局限需要引入新的扩展维度——进化。现有的部署时适应方法，无论是参数微调还是启发式记忆积累，都缺乏诊断故障并实现持久改进的战略能动性。我们的观点是：具身化进化将成为大语言模型适应的必然方向，使进化本身从固定流程升格为自主进化智能体。基于这一构想，我们提出通用框架A-Evolve，将部署时的改进视为对系统持久状态进行的具有明确目标的优化过程。进一步地，我们提出"进化扩展假说"：适应能力随进化分配的计算资源而扩展，使具身化进化成为实现现实世界中持续开放式适应的可扩展路径。

借助Gemini加速科研进程：案例解析与常用技巧
Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Feb 3

ByDavid P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Vahab Mirrokni

近年来，大型语言模型（LLMs）的突破为加速科研进程开辟了新途径。尽管此类模型在处理常规任务方面日益成熟，但其在推动专家级数学新发现方面的潜力尚不明确。本文通过系列案例研究，展示研究人员如何与基于谷歌Gemini的先进AI模型（特别是Gemini Deep Think及其高级变体）成功协作，在理论计算机科学以及经济学、优化理论和物理学等多个领域解决开放性问题、推翻猜想并生成新证明。基于这些实践，我们提炼出适用于理论研究的人机协作通用技术，包括迭代优化、问题分解和跨学科知识迁移等。虽然大部分成果源于这种交互式对话方法，但我们也重点介绍了超越标准聊天接口的特殊案例：将模型部署为严格的反向评审员以发现现有证明中的细微漏洞，并将其嵌入"神经符号"循环中自主编写执行代码以验证复杂推导。这些案例共同表明，人工智能不仅可作为自动化工具，更能在科学发现的创造性过程中成为多才多艺的真正合作伙伴。

连接在线与离线强化学习：基于情境赌博机的多轮代码生成方法
Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation

Feb 3

ByZiru Chen, Dongdong Chen, Ruinan Jin, Yingbin Liang, Yujia Xie, Huan Sun

近期，利用强化学习（RL）在真实世界任务（如多轮代码生成）上训练大语言模型（LLM）的研究备受关注。虽然在线强化学习通常优于离线强化学习，但其较高的训练成本和不稳定性限制了广泛应用。本文基于多轮代码生成可建模为单步可恢复马尔可夫决策过程的观察，提出了基于离线轨迹的上下文赌博机学习（Cobalt），该方法融合了在线与离线强化学习的优势。Cobalt首先使用参考LLM收集代码生成轨迹，并将其分割为部分轨迹作为上下文提示。在在线赌博机学习阶段，通过单步代码生成训练LLM完成每个部分轨迹提示。实验表明，Cobalt在LiveCodeBench上显著优于基于GRPO和VeRPO的两种多轮在线强化学习基线方法，并将R1-Distill 8B和Qwen3 8B的绝对Pass@1分数分别提升高达9.0和6.2分。此外，我们分析了LLM的上下文奖励破解行为，并通过引入扰动轨迹增强Cobalt训练以缓解该问题。总体而言，我们的结果表明Cobalt为多轮代码生成等迭代决策任务提供了有前景的解决方案。代码与数据已开源：https://github.com/OSU-NLP-Group/cobalt。

ObjEmbed：迈向通用多模态对象嵌入
ObjEmbed: Towards Universal Multimodal Object Embeddings

Feb 2

ByShenghao Fu, Yukun Su, Fengyun Rao, Jing Lyu, Xiaohua Xie, Wei-Shi Zheng

在视觉语言理解领域，实现物体与对应文本描述的精准对齐既是基础性挑战，也是现实需求。当前多模态嵌入模型虽擅长全局图文对齐，但往往难以实现图像区域与特定短语的细粒度匹配。本研究提出ObjEmbed——一种创新的多模态大语言嵌入模型，可将输入图像解构为多个区域嵌入（每个对应独立物体）及全局嵌入。该模型支持视觉定位、局部图像检索和全局图像检索等广泛视觉理解任务，具备三大核心特性：（1）对象导向表征：通过为每个区域生成语义匹配用的物体嵌入和预测定位质量的交并比嵌入，同时捕捉物体的语义与空间特征，最终通过结合语义相似度与预测交并比实现更精准的检索；（2）多任务适配性：可无缝处理区域级和图像级任务；（3）高效编码机制：单次前向传播即可完成图像内所有物体及整图的编码。在18个多样化基准测试中的卓越表现证明了其强大的语义判别能力。

FIRE-Bench：基于科学发现重现的智能体评估框架
FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights

Feb 2

ByZhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu

基于大语言模型（LLM）的自主智能体有望端到端加速科学发现，但如何严谨评估其可验证的发现能力仍是核心挑战。现有基准面临两难抉择：要么过度依赖LLM作为评判者对自动生成的研究成果进行评估，要么优化便捷但孤立的性能指标，这些指标仅能粗略替代科学洞察力。为弥补这一空白，我们推出FIRE-Bench（全周期洞察重现阶段评估基准），该基准通过智能体重现近期高影响力机器学习研究中的既定发现来进行评估。智能体仅获得从已发表、已验证研究中提取的高层研究问题，即需自主探索思路、设计实验、编写代码、执行计划，并得出经实证证据支持的结论。我们在FIRE-Bench上评估了多款采用前沿LLM（如GPT-5）的先进智能体。结果表明，全周期科学研究对当前智能体系统仍具挑战性：即使最强智能体的重现阶段成功率也有限（F1分数<50），不同运行结果差异显著，且在实验设计、执行及证据推理方面呈现重复性错误模式。FIRE-Bench为衡量智能体驱动型科学发现的可靠性进展提供了严谨且具诊断性的评估框架。

MemoryLLM：即插即用式可解释前馈内存模块在Transformer中的应用
MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers

Jan 30

ByAjay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Arnav Kundu, Mehrdad Farajtabar, Minsik Cho

理解Transformer组件在大型语言模型中的运行机制至关重要，这构成了近期人工智能技术突破的核心。本研究重新审视了前馈网络模块可解释性面临的挑战，提出MemoryLLM框架——该框架旨在将前馈网络与自注意力机制解耦，使我们能够将解耦后的前馈网络作为上下文无关的令牌级神经检索内存进行研究。具体而言，我们探究了输入令牌如何访问前馈网络参数中的记忆单元，并分析了前馈网络记忆在不同下游任务中的重要性。MemoryLLM通过直接基于令牌嵌入独立训练前馈网络，实现了上下文无关的前馈网络架构。这种方法使前馈网络可预计算为令牌级查找表，支持在显存与存储设备间按需传输，从而显著提升推理效率。我们还提出Flex-MemoryLLM架构，将其定位在传统Transformer设计与MemoryLLM之间的过渡方案。该架构通过使用上下文无关的令牌嵌入训练前馈网络，有效弥合了由此产生的性能差距。

通过策略竞标实现小型智能体规模化运营
Scaling Small Agents Through Strategy Auctions

Feb 2

ByLisa Alazraki, William F. Shen, Yoram Bachrach, Akhil Mathur

小型语言模型正日益被视为一种经济高效的智能体AI实现路径，支持者声称其已具备胜任智能体工作流的能力。然而尽管小型智能体在简单任务上能媲美大型模型，但其性能如何随任务复杂度扩展、何时需启用大型模型、以及如何更有效利用小型智能体处理长周期工作负载等问题仍不明确。本研究通过实证表明，在深度搜索和编程任务中，小型智能体的性能无法随任务复杂度有效扩展，同时我们提出受自由职业市场启发的智能体框架SALE（基于策略竞标的工作负载优化系统）。该框架使智能体通过简短策略方案参与竞标，由系统性成本价值机制进行评分，并借助共享竞标记忆库持续优化策略，实现按任务动态路由和持续自我改进，而无需训练独立路由模块或运行全部模型至终态。在复杂度各异的深度搜索与编程任务中，SALE将最大型智能体的调用需求降低53%，总成本减少35%，并在仅增加可忽略的执行开销前提下，持续超越最大型智能体的pass@1指标。相比之下，依赖任务描述的现有路由方案要么性能逊于最大型智能体，要么无法降低成本——往往两者兼有——这凸显其与智能体工作流的不适配性。这些结果表明，虽然小型智能体可能难以独立应对复杂工作负载，但通过协同任务分配和测试时自我改进机制可实现有效"规模扩展"。更广泛而言，本研究倡导从系统层面审视智能体AI：性能提升不应仅依赖不断增大的单体模型，而更应通过市场启发的协同机制，将异构智能体组织成高效自适应的生态系统。

泛癌筛查的快速聚焦强化学习策略
Glance and Focus Reinforcement for Pan-cancer Screening

Jan 27

ByLinshan Wu, Jiaxin Zhuang, Hao Chen

大规模CT扫描中的泛癌筛查对现有AI方法仍具挑战，主要难点在于如何从庞大CT体积中定位多样化的微小病灶。极端的前景-背景不平衡严重阻碍模型聚焦病灶区域，而对健康区域的冗余关注不仅降低效率，更会增加假阳性。受放射科医生"扫视-聚焦"诊断策略启发，我们提出GF-Screen框架——一种基于强化学习的泛癌筛查方法。该框架通过扫视模型定位疑似病灶区域，再由聚焦模型进行精确分割，并利用聚焦模型的分割结果通过强化学习奖励扫视模型。具体而言，扫视模型从完整CT体积中截取一组子体积，学习筛选含病灶的子体积供聚焦模型分割。针对选择操作不可微分的问题，我们创新性地采用分割结果作为扫视模型的奖励信号。为优化扫视模型，提出群体相对学习范式，通过组内相对比较优先选择高价值预测、摒弃低价值预测，既提升效率又降低假阳性。此举首次将前沿强化学习技术有效应用于泛癌筛查的特殊挑战。在涵盖9类病灶的16个内部数据集和7个外部数据集上的实验验证了GF-Screen的有效性。值得注意的是，该方法在MICCAI FLARE25泛癌挑战赛公开验证榜位列第一，较FLARE24冠军方案实现显著提升（DSC提升25.6%，NSD提升28.2%）。

SafeGround：通过不确定性校准判断GUI定位模型的可靠时机
SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration

Feb 2

ByQingni Wang, Yue Fan, Xin Eric Wang

图形用户界面（GUI） grounding 技术旨在将自然语言指令转化为可执行的屏幕坐标，实现自动化界面交互。然而，不准确的坐标定位可能引发代价高昂且难以逆转的操作（如错误支付授权），这引发了对模型可靠性的担忧。本文提出SafeGround框架，这是一种面向GUI定位模型的不确定性感知系统，通过测试前的校准过程实现风险感知预测。该框架采用分布感知的不确定性量化方法，能够捕捉任意给定模型输出中随机样本的空间离散特性。经过校准流程，SafeGround可得出具有统计保证的误发现率（FDR）控制的测试决策阈值。我们在挑战性基准数据集ScreenSpot-Pro上对多种GUI定位模型应用SafeGround。实验结果表明：我们的不确定性度量在区分正误预测方面持续优于现有基线方法；经过校准的阈值不仅能实现严格的风险控制，更展现出显著提升系统级精度的潜力。在多个GUI定位模型中，SafeGround较纯Gemini推理将系统级精度最高提升5.38个百分点。

POP：仅预填充剪枝实现高效大语言模型推理
POP: Prefill-Only Pruning for Efficient Large Model Inference

Feb 3

ByJunhui He, Zhihui Fu, Jun Wang, Qingan Li

大语言模型（LLM）与视觉语言模型（VLM）已展现出卓越能力，但其部署受制于高昂的计算成本。现有结构化剪枝方法虽具备硬件效率优势，却常伴随显著的精度损失。本文指出，这种失效源于阶段无差别的剪枝策略忽视了预填充阶段与解码阶段之间的不对称性。通过引入虚拟门机制，我们的重要性分析表明：深层网络对下一令牌预测（解码）至关重要，但在上下文编码（预填充）阶段基本冗余。基于此发现，我们提出仅预填充剪枝法（POP）——一种阶段感知推理策略，在计算密集的预填充阶段安全跳过深层网络，同时为敏感的解码阶段保留完整模型。为实现阶段间切换，我们设计了独立的键值投影以维持缓存完整性，并采用边界处理策略确保首生成令牌的准确性。在Llama-3.1、Qwen3-VL和Gemma-3等多模态模型上的实验表明，POP可实现预填充延迟最高1.37倍的加速，且性能损失微乎其微，有效突破了现有结构化剪枝方法在精度与效率间的权衡局限。

视觉-语言模型中的情境化视觉个性化
Contextualized Visual Personalization in Vision-Language Models

Feb 3

ByYeongtak Oh, Sangwon Yu, Junsung Park, Han Cheol Moon, Jisoo Mok, Sungroh Yoon

尽管视觉语言模型（VLMs）近期取得进展，现有方法仍难以基于用户特定经历生成个性化响应，因其缺乏将视觉输入与用户累积的视觉-文本语境相关联的能力。我们首次将这一挑战形式化为情境化视觉个性化，要求VLM在解析新图像时能够对个性化视觉经验进行视觉识别与文本检索。为解决该问题，我们提出CoViP统一框架，将个性化图像描述作为情境化视觉个性化的核心任务，并通过基于强化学习的后训练与描述增强生成技术提升该能力。我们进一步设计了诊断性评估方案，明确排除文本捷径解决方案，验证VLM是否真正利用视觉语境。大量实验表明，现有开源与专有VLM存在明显局限性，而CoViP不仅能提升个性化图像描述性能，还能在下游个性化任务中实现全面增益。这些成果凸显CoViP为实现鲁棒且可泛化的情境化视觉个性化奠定了关键基础。

SimpleGPT：通过简单归一化策略改进GPT模型
SimpleGPT: Improving GPT via A Simple Normalization Strategy

Feb 1

ByMarco Chen, Xianbiao Qi, Yelin He, Jiaquan Ye, Rong Xiao

在本研究中，我们通过二阶几何视角重新审视Transformer的优化问题，建立了架构设计、激活尺度、Hessian矩阵与最大可容忍学习率之间的直接联系。我们提出了一种名为SimpleNorm的简单归一化策略，该策略通过构造方式稳定中间激活尺度。随后通过分析损失函数对网络激活值的Hessian矩阵，从理论上证明SimpleNorm能显著降低Hessian矩阵的谱范数，从而允许采用更大的稳定学习率。我们在10亿、14亿、70亿和80亿参数规模的大型GPT模型上进行了广泛实验，验证了理论结论。实证表明，基于SimpleNorm的网络SimpleGPT可承受比标准惯例高3-10倍的学习率，始终表现出强大的优化稳定性，并显著超越成熟基线模型。具体而言，在70亿参数模型上训练6万步时，SimpleGPT的训练损失比采用QKNorm的LLaMA2低0.08，将损失从2.290降至2.208。相关源代码将在https://github.com/Ocram7/SimpleGPT 发布。

FaceLinkGen：隐私保护人脸识别中身份信息泄露的反思与身份提取新思路
FaceLinkGen: Rethinking Identity Leakage in Privacy-Preserving Face Recognition with Identity Extraction

Feb 2

ByWenqi Guo, Shan Du

基于变换的隐私保护人脸识别（PPFR）旨在验证身份的同时，隐藏面部数据免受攻击者和恶意服务提供商的窥探。现有评估大多将隐私等同于抵抗像素级重建的能力，并以PSNR和SSIM作为衡量指标。我们证明这种以重建为中心的视角存在缺陷。本文提出FaceLinkGen攻击方法，能够直接从受保护的模板中执行身份关联/匹配及人脸再生，而无需恢复原始像素。在三种前沿PPFR系统上的实验表明，FaceLinkGen实现了超过98.5%的匹配准确率和96%以上的再生成功率，即使在近乎零知识的设定下仍保持92%的匹配准确率与94%的再生成功率。这些结果揭示了PPFR评估中广泛采用的像素失真指标与实际隐私保护效果之间的结构性差距。我们证明视觉混淆技术会使身份信息在外部入侵者和不可信服务提供商面前大面积暴露。

构建基于大语言模型的智能体评估统一框架的必要性
The Necessity of a Unified Framework for LLM-Based Agent Evaluation

Feb 3

ByPengyu Zhu, Li Sun, Philip S. Yu, Sen Su

随着大语言模型（LLM）的出现，通用智能体的基础能力取得了突破性进展。然而，评估这类智能体面临着与静态问答基准截然不同的独特挑战。我们发现当前智能体基准测试受到诸多外部因素的严重干扰，包括系统提示词、工具集配置和环境动态等。现有评估往往依赖碎片化、研究者自建的评价框架，其中推理与工具调用的提示工程方案差异显著，导致性能提升难以归因于模型本身。此外，由于缺乏标准化的环境数据，常出现错误难以追溯、结果无法复现的问题。这种标准化缺失给该领域带来了严重的不公平性和不透明性。我们认为建立统一评估框架对推动智能体评估的严谨发展至关重要。为此，我们提出一项旨在实现智能体评估标准化的方案。

MedSAM-Agent：基于多轮智能体强化学习的交互式医学图像分割赋能系统
MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning

Feb 3

ByShengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng, Chenxin Li, Wenting Chen, Houwen Peng, Yixuan Yuan

医学图像分割正从任务特定模型向通用化框架演进。近期研究通过多模态大语言模型（MLLMs）作为自主智能体，采用可验证奖励的强化学习（RLVR）来协调Segment Anything Model（SAM）等专用工具。然而，这些方法通常依赖单轮次、僵化的交互策略，且缺乏训练过程中的流程级监督，限制了交互式工具动态潜能的充分发挥，导致冗余操作。为弥补这一不足，我们提出MedSAM-Agent框架，将交互式分割重构为多步骤自主决策过程。首先，我们引入混合提示策略生成专家轨迹，使模型能够内化类人决策启发式与自适应优化策略。此外，我们开发了双阶段训练流程，将多轮次端到端结果验证与临床保真度的过程奖励设计相结合，以提升交互简洁性与决策效率。在6种医学影像模态和21个数据集上的大规模实验表明，MedSAM-Agent实现了最先进的性能，有效融合了自主医学推理与鲁棒的迭代优化。代码已开源：https://github.com/CUHK-AIM-Group/MedSAM-Agent。

从说教到建构：将专家解决方案转化为可习得的推理过程
Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning

Feb 2

ByEthan Mendes, Jungsoo Park, Alan Ritter

提升大语言模型（LLM）的推理能力通常依赖于两种途径：要么依靠模型自身采样出可强化的正确解法，要么借助能解决该问题的更强模型。然而，即使对当前最先进的模型而言，许多难题仍然无法攻克，导致难以提取有效的训练信号。一个可行的替代方案是利用高质量的人类专家解法，但直接模仿这类数据往往收效甚微，因为其本质属于分布外数据：专家解法通常具有教学性，包含面向人类读者而非计算模型设计的隐性推理跳跃。此外，高质量专家解法成本高昂，需要开发具有泛化能力的高样本效率训练方法。我们提出分布对齐模仿学习（DAIL），该方法通过两个步骤弥合分布差距：首先将专家解法转化为符合分布特性的详细推理轨迹，再应用对比学习目标使模型聚焦于专家的思维路径和方法论。实验表明，DAIL仅需不到1000个高质量专家解法即可在Qwen2.5-Instruct和Qwen3模型上实现10-25%的pass@k提升，将推理效率提高2至4倍，并具备跨领域泛化能力。

RecGOAT：基于图最优自适应传输的双语义对齐大语言模型增强多模态推荐系统
RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment

Jan 31

ByYuecheng Li, Hengwei Ju, Zeyu Song, Wei Yang, Chi Lu, Peng Jiang, Kun Gai

多模态推荐系统通常将用户行为与物品的多模态数据相融合，从而更精准地捕捉用户偏好。随着大模型的兴起，多模态推荐日益利用其在语义理解和上下文推理方面的优势。然而，大模型表征本质上是为通用语义任务优化的，而推荐模型则高度依赖稀疏的用户/物品唯一身份标识特征。现有研究忽视了大模型与推荐系统之间的表征差异，导致多模态表征不兼容及推荐性能欠佳。为弥合这一差距，我们提出RecGOAT——一种新颖而简洁的双语义对齐框架，用于大语言模型增强的多模态推荐，该框架具备理论保障的对齐能力。RecGOAT首先通过图注意力网络，利用用户/物品的大模型表征和交互历史，对物品-物品、用户-物品及用户-用户关系建模以丰富协同语义。进一步，我们设计了双粒度渐进式多模态-身份标识对齐框架，分别通过跨模态对比学习和最优自适应传输实现实例级与分布级语义对齐。理论上，我们证明了该对齐框架衍生的统一表征具有更优的语义一致性和全面性。在三个公开基准数据集上的大量实验表明，RecGOAT实现了最先进的性能，从实证角度验证了我们的理论见解。此外，在大型在线广告平台上的部署证实了该模型在工业推荐场景中的有效性和可扩展性。代码详见https://github.com/6lyc/RecGOAT-LLM4Rec。

LangMap：面向开放词汇目标导航的分层基准
LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation

Feb 2

ByBo Miao, Weijia Liu, Jun Luo, Lachlan Shinnick, Jian Liu, Thomas Hamilton-Smith, Yuhe Yang, Zijie Wu, Vanja Videnovic, Feras Dayoub, Anton van den Hengel

物体与语言的关系是实现人机有意义交互及实用具身智能的核心。我们提出HieraNav——一个多粒度、开放词汇的目标导航任务，要求智能体通过自然语言指令理解四个语义层级的目标：场景、房间、区域和实例。为此，我们构建了LangMap大规模基准数据集，该数据集基于真实世界3D室内扫描数据，包含经人工校验的全方位标注及跨层级任务。LangMap提供区域标签、区分性区域描述、覆盖414种物体类别的区分性实例描述，以及超过1.8万个导航任务。每个目标均配备简洁与详细双版本描述，支持不同指令风格的评估。LangMap以仅四分之一文本长度实现23.8%的判别准确度提升，显著优于GOAT-Bench。基于LangMap对零样本和监督模型的综合评估表明：丰富上下文与记忆可提升导航成功率，但长尾分布、微小目标、上下文依赖、远距离目标及多目标完成仍是挑战。HieraNav与LangMap为推进语言驱动具身导航建立了严谨测试平台。项目地址：https://bo-miao.github.io/LangMap

MEG-XL：基于长上下文预训练实现数据高效型脑信号到文本解码
MEG-XL: Data-Efficient Brain-to-Text via Long-Context Pre-Training

Feb 2

ByDulhan Jayalath, Oiwi Parker Jones

临床脑文本接口专为无法提供大量训练记录的瘫痪患者设计。预训练通过跨被试学习统计先验来提升数据效率化泛化能力，但这些先验高度依赖上下文环境。虽然自然语音可能持续数分钟，但现有方法大多仅用几秒上下文进行预训练。为此，我们提出MEG-XL模型，其每个样本使用2.5分钟脑磁图上下文进行预训练——比现有研究长5-300倍，相当于19.1万个标记，能捕捉更完整的神经上下文。在从脑数据解码词语的微调任务中，MEG-XL仅用少量数据（如1小时对比50小时）即可达到监督学习性能，并超越脑基础模型。我们发现长上下文预训练模型能学习到更适用于词语解码的表征。结果表明，长上下文预训练有助于利用其他方法不必要丢弃的扩展神经上下文。代码、模型权重及使用指南详见https://github.com/neural-processing-lab/MEG-XL。

设计驱动反馈：理解并克服会话智能体中的用户反馈障碍
Feedback by Design: Understanding and Overcoming User Feedback Barriers in Conversational Agents

Feb 1

ByNikhil Sharma, Zheng Zhang, Daniel Lee, Namita Krishnan, Guang-Jie Ren, Ziang Xiao, Yunyao Li

高质量反馈对于实现有效的人机交互至关重要。它能够弥合认知差距、纠正对话偏离并塑造系统行为，无论是在交互过程中还是在模型开发的整个周期内都发挥着关键作用。然而尽管反馈如此重要，人类对AI的反馈却往往频率低且质量欠佳。这一现实差距促使我们必须批判性地审视人机交互中的反馈机制。为理解并克服阻碍用户提供高质量反馈的挑战，我们开展了两项研究，深入探讨人类与对话智能体之间的反馈动态。通过格莱斯合作原则的视角，我们的形成性研究识别出四大反馈障碍——共同基础、可验证性、沟通效率与信息量——这些障碍阻碍了用户提供高质量反馈。基于这些发现，我们提出三项设计原则，并证明整合了符合这些原则的支架系统的对话智能体能够帮助用户提供更优质的反馈。最后，我们向更广泛的人工智能社区发出行动倡议，呼吁通过提升大语言模型的能力来突破反馈障碍。

音频时空融合的自适应证据加权
Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion

Feb 3

ByOscar Ovanger, Levi Harris, Timothy H. Keitt

许多机器学习系统能够获取同一预测目标的多种证据来源，但这些来源在不同输入中的可靠性和信息量往往存在差异。在生物声学分类中，物种身份既可从声学信号推断，也可通过时空上下文（如地理位置和季节）来判定；虽然贝叶斯推断支持采用乘法证据融合策略，但实践中我们通常只能使用判别式预测器而非经过校准的生成模型。我们提出独立条件假设融合框架（FINCH），这是一种自适应对数线性证据融合方法，将预训练的音频分类器与结构化时空预测器相集成。FINCH通过逐样本门控函数，根据不确定性和信息量统计量估计上下文信息的可靠性。该融合框架以纯音频分类器为特例，显式约束上下文证据的影响范围，形成具有可解释纯音频回退机制的风险可控假设类。在多个基准测试中，FINCH始终优于固定权重融合和纯音频基线模型，即使上下文信息本身较弱时也能提升鲁棒性并优化误差权衡。通过轻量化、可解释的证据融合方法，我们在CBI数据集上实现了最先进性能，并在BirdSet的多个子集上取得竞争性或更优的结果。代码已开源：\href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{匿名仓库}

你需要一个编码器来实现原生位置无关缓存
You Need an Encoder for Native Position-Independent Caching

Feb 2

ByShiju Zhao, Junhao Hu, Jiaqi Zheng, Guihai Chen

大语言模型（LLM）的键值（KV）缓存采用基于前缀的机制，导致其在处理乱序检索的上下文时效率低下。位置无关缓存（PIC）技术被提出以实现不受位置约束的KV重用，但现有方案常伴随显著的精度损失，限制了实际应用。为解决该问题，我们通过向主流仅解码器架构的LLM重新引入编码器，并显式训练其支持PIC功能，提出了原生PIC方案。我们进一步开发了COMB——一个与现有推理框架无缝集成的PIC感知缓存系统。实验表明，COMB在保持相当精度的同时，将首令牌生成时间（TTFT）缩短51-94%，吞吐量提升3倍。此外，采用DeepSeek-V2-Lite-Chat模型时的质量提升证明了COMB对其他类型仅解码器LLM的适用性。代码已开源：https://github.com/shijuzhao/Comb。