每日精选AI研究论文及翻译
在本报告中,我们推出ERNIE 5.0——一个原生自回归的基础模型,专为统一理解与生成文本、图像、视频及音频等多模态内容而设计。所有模态均基于超稀疏专家混合(MoE)架构,采用模态无关的专家路由机制,在统一的"下一组标记预测"目标下从头开始训练。为应对多样化资源约束下大规模部署的实际挑战,ERNIE 5.0采用了创新的弹性训练范式:在单次预训练过程中,模型可学习具有不同深度、专家容量和路由稀疏度的子模型家族,从而在内存或时间受限场景下实现性能、模型规模与推理延迟间的灵活权衡。此外,我们系统性地解决了将强化学习扩展至统一基础模型的挑战,确保在超稀疏MoE架构与多样化多模态设置下实现高效稳定的训练后优化。大量实验表明,ERNIE 5.0在多种模态上均展现出强劲而均衡的性能。据我们所知,在公开披露的模型中,ERNIE 5.0是首个实现万亿参数规模、同时支持多模态理解与生成功能的统一自回归模型工业化实践。为促进后续研究,我们呈现了统一模型中模态无关专家路由的详细可视化结果,并结合弹性训练的全面实证分析,旨在为学术界提供深刻洞见。
大语言模型(LLM)在处理长序列输入时面临关键瓶颈:键值(KV)缓存的内存占用过高。为突破此瓶颈,令牌剪枝范式利用注意力稀疏性选择性地保留少量关键令牌。然而现有方法存在局限——静态策略可能造成不可逆信息损失,动态策略采用的启发式规则难以充分捕捉令牌重要性的查询相关性。我们提出FASA框架,通过动态预测令牌重要性实现查询感知的令牌淘汰机制。该框架源于对RoPE的新发现:我们在频率块(FC)层面发现了功能性稀疏现象。核心发现是,存在少量可识别的"主导性"FC子集,其上下文一致性始终与完整注意力头保持高度吻合,这为识别重要令牌提供了零计算成本的鲁棒代理指标。基于此,FASA首先利用主导性FC筛选关键令牌集合,随后仅对剪枝后的子集执行聚焦注意力计算。由于仅需访问少量KV缓存,FASA显著降低了内存带宽需求与计算成本。在从序列建模到复杂思维链推理的长上下文任务中,FASA全面超越所有令牌淘汰基线,在受限预算下仍保持接近理论最优的准确率,展现出卓越的鲁棒性。在LongBench-V1基准测试中,FASA仅保留256个令牌即可达到完整KV缓存性能的近乎100%,在AIME24任务上仅需18.9%缓存即实现2.56倍加速。
近期大型语言模型(LLM)的研究进展主要聚焦于深度扩展,即通过单一智能体进行多轮推理与工具调用以解决长周期问题。然而随着任务范围的扩大,关键瓶颈已从个体能力转向组织效能。本研究探索了多智能体系统的宽度扩展这一互补维度,以应对广泛信息检索需求。现有多智能体系统往往依赖人工设计的工作流程和轮替式交互,难以实现高效并行化工作。为弥补这一差距,我们提出WideSeek-R1框架,通过多智能体强化学习训练主控智能体与从属智能体协同工作,实现可扩展的统筹规划与并行执行。该框架基于共享LLM架构,通过隔离上下文与专用工具,在包含2万条广泛信息检索任务的精选数据集上联合优化主控智能体与并行从属智能体。大量实验表明,WideSeek-R1-4B在WideSearch基准测试中达到40.0%的项目F1分数,与单智能体DeepSeek-R1-671B性能相当。更重要的是,随着并行从属智能体数量的增加,WideSeek-R1-4B展现出持续的性能提升,充分印证了宽度扩展的有效性。
多模态过程奖励模型(MPRM)是指导多模态大语言模型进行视觉推理任务中步骤级监督的核心组件。传统MPRM训练通常需要大规模蒙特卡洛(MC)标注数据集,这会导致高昂的训练成本。本文系统研究了MPRM训练的数据效率问题。初步实验表明,在随机子采样训练数据时,MPRM性能会快速达到饱和点,这揭示出现有MC标注数据集中存在显著冗余。为解释该现象,我们构建理论框架并发现:有效的梯度更新取决于两个关键因素——正负步骤的标签混合程度与标签可靠性(正步骤的平均MC分数)。基于此洞见,我们提出平衡信息分数(BIS),该指标在轨迹层面基于现有MC信号同时优化混合度与可靠性,且无需引入额外成本。在VisualProcessBench基准上,针对InternVL2.5-8B和Qwen2.5-VL-7B两个骨干模型的实验表明:BIS筛选的子集仅需极小比例数据即可达到甚至超越全量数据性能。值得注意的是,BIS子集仅使用10%训练数据即可实现全量数据性能,相较随机子采样相对提升达4.1%。
全模态大语言模型(Omni-LLMs)在音视频理解任务中展现出强大能力,但其对长序列多模态令牌的依赖导致显著的计算开销。尽管存在这一挑战,针对Omni-LLMs的令牌压缩方法仍较为有限。为填补这一空白,我们提出OmniSIFT(全模态时空感知细粒度令牌压缩)——一种专为Omni-LLMs设计的模态非对称令牌压缩框架。具体而言,OmniSIFT采用两阶段压缩策略:(i)时空视频剪枝模块,消除由帧内结构和帧间重叠产生的视频冗余;(ii)视觉引导的音频选择模块,过滤音频令牌。整个框架通过可微分直通估计器进行端到端优化。在五个代表性基准测试上的大量实验证明了OmniSIFT的有效性与鲁棒性。值得注意的是,对于Qwen2.5-Omni-7B模型,OmniSIFT仅引入485万个参数,同时保持比OmniZip等无训练基线更低的延迟。在仅使用原始令牌上下文25%的情况下,OmniSIFT持续优于所有压缩基线,并在多项任务中超越全令牌模型的性能。
本研究提出混合稀疏注意力(HySparse)架构,通过在每个全注意力层之间插入多个稀疏注意力层实现创新。尽管概念简洁,但HySparse能从前置全注意力层中直接推导出各稀疏层的令牌选择策略与KV缓存配置。该架构解决了传统稀疏注意力方法的两大核心局限:其一,传统方法通常依赖额外代理指标预测令牌重要性,不仅引入额外复杂度还可能导致次优性能;而HySparse直接将全注意力层作为精准预言机来识别关键令牌。其二,现有稀疏注意力设计往往只降低计算量却无法节省KV缓存,而HySparse使稀疏注意力层能复用全注意力层的KV缓存,从而同步降低计算量与内存占用。我们在70亿参数稠密模型与800亿参数MoE模型上验证HySparse,所有实验设置中其性能均稳定超越全注意力基准与混合SWA基线。值得注意的是,在含49个总层数的800亿参数MoE模型中,仅需5个全注意力层即可实现显著性能提升,同时将KV缓存存储量压缩近10倍。
在现实场景中部署人形机器人具有根本性挑战,这要求机器人在部分信息观测和动态变化环境下,实现感知、运动与操作的紧密协同,并能在不同类型子任务间稳健切换。为应对这些挑战,我们提出一项新任务——自我行为模拟(EgoActing),该任务要求将高层指令直接具象化为多样化、高精度且具有空间意识的人形机器人动作。我们进一步通过引入EgoActor模型来实例化该任务,这是一个统一且可扩展的视觉语言模型(VLM),能够同步预测运动基元(如行走、转向、侧移、高度调整)、头部运动、操作指令及人机交互行为,从而实现感知与执行的实时协同。通过融合来自真实世界演示的纯RGB第一视角数据、空间推理问答以及模拟环境演示的广泛监督信号,EgoActor的8B和4B参数模型均能实现稳健的上下文感知决策与流畅的动作推理(响应时间低于1秒)。在模拟与真实环境中的大量实验表明,EgoActor能有效衔接抽象任务规划与具体运动执行,并在多样化任务及未知环境中展现出卓越的泛化能力。
尽管自回归视频扩散技术发展迅猛,一个新兴的系统算法瓶颈正同时制约着部署能力与生成性能:KV缓存内存。在自回归视频生成模型中,KV缓存随生成历史增长并迅速占据GPU内存,常超过30GB,导致无法在普及型硬件上部署。更关键的是,受限的KV缓存预算会压缩有效工作内存,直接削弱长序列生成在身份特征、画面布局和运动轨迹上的一致性。为解决这一挑战,我们提出量化视频生成(QVG)——一种面向自回归视频扩散模型的无训练KV缓存量化框架。QVG通过语义感知平滑技术利用视频时空冗余性,生成低幅值、量化友好的残差。该框架进一步引入渐进式残差量化方案,采用由粗到精的多阶段策略,在实现平滑的质量-内存权衡的同时降低量化误差。在LongCat Video、HY WorldPlay和Self Forcing等基准测试中,QVG建立了质量与内存效率的新帕累托边界,将KV缓存内存削减最高达7.0倍,端到端延迟开销低于4%,且在生成质量上持续超越现有基线。
近期自主LLM智能体的研究进展表明,其能通过与环境的迭代交互持续提升表现。我们将这种范式定义为测试时优化(TTI)。然而,TTI成功或失败的内在机制尚不明确,现有评估指标也未能有效捕捉其任务优化效率、错误行动后的行为适应性,以及工作记忆对任务完成的具体效用。为填补这些空白,我们提出测试时优化诊断评估框架(TIDE),该框架与智能体及环境解耦,将TTI分解为三个相互关联的维度:量化(1)任务完成的整体时序动态,(2)判别性能瓶颈主要源于递归循环行为还是(3)记忆累积负担。通过多智能体与多环境的大规模实验,TIDE揭示出提升智能体性能不仅需要扩展内部推理能力,更需显式优化智能体与环境间的交互动力学机制。
在机器人操作的真实到仿真转换中,模拟具有丰富交互作用的可变形物体仍然是一个根本性挑战,其动力学同时受环境效应与机器人动作驱动。现有模拟器依赖预定义物理规则或未考虑机器人条件控制的数据驱动动力学,限制了准确性、稳定性和泛化能力。本文提出SoMA——面向软体操作的3D高斯溅射模拟器。该框架将可变形动力学、环境作用力与机器人关节动作耦合于统一潜神经空间中,实现端到端的真实到仿真模拟。通过对学习到的高斯溅射进行交互建模,系统无需预定义物理模型即可实现可控、稳定的长时程操作,并泛化至未观测轨迹之外。SoMA将真实世界机器人操作的再模拟精度与泛化能力提升20%,可稳定模拟诸如长时程布料折叠等复杂任务。
扩散大语言模型(dLLMs)因其能并行解码多个标记而成为纯自回归语言模型的有力替代方案。然而,当前最先进的块状dLLMs依赖"重掩码"机制,仅解码置信度最高的标记而丢弃其余标记,这实质上造成了计算资源浪费。我们证明回收被丢弃标记的计算结果具有显著价值,因为这些标记保留了有助于后续解码迭代的上下文信息。基于此,我们提出残差上下文扩散(RCD)模块,该模块可将废弃的标记表征转化为上下文残差,并将其注入下一去噪步骤。RCD采用解耦的双阶段训练流程,以规避反向传播相关的内存瓶颈。我们在长链思维推理(SDAR)和短链指令跟随(LLaDA)模型上验证了该方法,证明标准dLLM仅需约10亿标记即可高效转换为RCD范式。在广泛基准测试中,RCD以最小额外计算开销将前沿dLLMs的准确率稳定提升5-10个百分点。值得注意的是,在最富挑战性的AIME任务上,RCD使基线准确率近乎翻倍,并在同等精度水平下实现去噪步骤减少4-5倍。
强化学习(RL)已成为微调大语言模型(LLM)的核心技术,其中近端策略优化(PPO)作为事实标准算法被广泛采用。尽管PPO应用普遍,我们认为其核心的比例裁剪机制在结构上难以适配LLM固有的大词汇表特性。PPO基于采样标记的概率比来约束策略更新,该比率作为真实策略散度的噪声单样本蒙特卡洛估计。这种机制形成了次优的学习动态:对低概率标记的更新会遭受过度惩罚,而高概率标记中可能出现的灾难性偏移却约束不足,导致训练效率低下和稳定性问题。为此,我们提出散度近端策略优化(DPPO),用基于策略散度直接估计(如总变差或KL散度)的原理性约束替代启发式裁剪。为避免巨大内存开销,我们引入高效的二元与Top-K近似法,以可忽略的开销捕捉核心散度。大量实证评估表明,相比现有方法,DPPO在训练稳定性和效率上表现更优,为基于RL的LLM微调提供了更稳健的基础。
近期基于DiT的文本生成图像模型逐渐采用大语言模型作为文本编码器,但文本条件处理仍基本保持静态,且通常仅利用单一LLM层,尽管LLM各层间存在显著的语义层级差异,且扩散过程在时间维度和网络深度上均呈现非平稳的去噪动态特性。为更好地匹配DiT生成的动态过程从而增强扩散模型的生成能力,我们提出了一种配备轻量级门控机制的归一化凸融合框架,通过时间维度、深度维度及联合融合三种方式系统整合多层LLM隐藏状态。实验表明深度语义路由是最优的条件控制策略,能持续提升图文对齐度与组合生成能力(如在GenAI-Bench计数任务上提升9.97分)。相反,纯时间维度融合反而会降低视觉生成质量,我们将其归因于训练-推断轨迹失配:在无分类器指导机制下,名义时间步无法追踪有效信噪比,导致推断过程中出现语义时序错位的特征注入。总体而言,我们的研究将深度路由确立为强大有效的基线方法,并揭示了轨迹感知信号对实现稳健时间相关条件控制的必要性。
尽管神经表征与生成模型的最新进展已彻底改变三维内容创作领域,但数据处理瓶颈仍制约着该领域发展。为此,我们推出开源生态系统HY3D-Bench,旨在为三维生成建立统一的高质量基准。我们的贡献包含三方面:(1)从大规模资源库中精选25万个高保真三维对象,通过严格流程提供包含水密网格和多视角渲染的训练就绪素材;(2)引入结构化部件级分解方案,为细粒度感知与可控编辑提供关键技术支持;(3)通过可扩展的AIGC合成流程弥合现实数据分布差距,新增12.5万合成资源以增强长尾类别多样性。基于Hunyuan3D-2.1-Small模型的实证验证表明,HY3D-Bench通过开放高质量数据资源,有望推动三维感知、机器人及数字内容创作等领域的创新突破。
高质量科学插图对于有效传达复杂科技概念至关重要,然而其人工创作始终是学术界与工业界公认的瓶颈。我们推出FigureBench——首个基于长篇科学文本生成插图的大规模基准数据集,包含3,300组高质量科学文本-插图配对样本,涵盖科研论文、综述、博客及教材中的多样化文转图任务。此外,我们提出AutoFigure——首个基于长篇科学文本自动生成高质量插画的智能体框架。该框架在最终渲染前会进行深度思考、要素重组与多轮验证,生成兼具结构合理性与美学精炼度的布局方案,输出结构完整且视觉精美的科学插图。依托FigureBench提供的高质量数据,我们开展大量实验对比AutoFigure与多种基线方法的性能。结果表明AutoFigure持续超越所有基线方法,能生成达到出版标准的科学插图。代码、数据集及HuggingFace空间已发布于https://github.com/ResearAI/AutoFigure。
群体相对策略优化(GRPO)作为一种基于可验证目标对齐大语言模型的实用方法近期崭露头角。然而在稀疏终端奖励场景下,由于组内推演常获得相同奖励导致相对优势坍缩和梯度更新消失,GRPO往往陷入停滞。我们提出具备特权监督的自提示对齐GRPO框架(SAGE),该在线强化学习框架通过在训练阶段注入特权提示来重塑相同终端验证器奖励下的推演分布。对于每个提示x,模型首先采样紧凑提示h(如规划或分解方案),继而基于(x,h)生成解决方案τ。关键设计在于任务奖励R(x,τ)保持不变;提示仅通过有限采样增强组内结果多样性,从而避免稀疏奖励下GRPO优势坍缩。测试阶段设置h=∅,直接部署无提示策略而无需任何特权信息。此外,多样自提示采样可形成自适应课程机制,相比初始策略或强外部模型的固定提示,能更有效追踪学习者的瓶颈环节。在3种大语言模型上的6个基准测试表明,SAGE持续优于GRPO:Llama-3.2-3B-Instruct平均提升2.0分,Qwen2.5-7B-Instruct提升1.2分,Qwen3-4B-Instruct提升1.3分。代码已开源:https://github.com/BaohaoLiao/SAGE。
当前语言模型(LM)擅长利用预训练知识进行提示推理。然而现实任务更为复杂且高度依赖情境:模型必须从任务特定情境中学习,并运用预训练知识之外的新知识进行推理与任务解决。我们将这种能力称为情境学习——这是人类与生俱来却被长期忽视的关键能力。为此,我们推出CL-bench真实场景基准,包含由领域专家精心设计的500个复杂情境、1,899项任务及31,607条验证规则。每项任务所需的新知识均包含在对应情境中,要求模型从情境中学习包括领域新知、规则体系、复杂流程乃至基于实证数据推导的法则等预训练未接触的内容。这远超主要测试检索或阅读理解的长文本任务,也区别于通过指令示范学习简单任务模式的上下文学习任务。我们对十大前沿模型的评估发现,模型平均仅能解决17.2%的任务,表现最佳的GPT-5.1也仅达到23.7%,表明现有语言模型尚未掌握有效的情境学习能力,这成为应对现实世界复杂情境任务的关键瓶颈。CL-bench旨在推动构建具备这种基础能力的语言模型,使其更智能地适应真实场景应用。
过去十年间,生成式人工智能的发展轨迹始终由模型中心化范式主导,这一范式受规模效应定律驱动。尽管在视觉保真度方面取得了显著突破,但该方法仍遭遇了"可用性天花板",具体表现为意图-执行鸿沟(即创作者的高层意图与当前单次生成模型的随机性、黑箱特性之间的根本性脱节)。本文受氛围编码启发,提出氛围AIGC这一通过智能体编排实现内容生成的新范式,其核心在于分层多智能体工作流的自主合成。 在此范式下,用户的角色超越了传统提示词工程,升级为通过"氛围"提供高层表征的指挥官——该表征涵盖审美偏好、功能逻辑等要素。中心化元规划器则作为系统架构师,将"氛围"解构为可执行、可验证且自适应的智能体流水线。通过从随机推理转向逻辑化编排,氛围AIGC在人类想象力与机器执行力之间架设了桥梁。我们认为,这一转变将重塑人机协作生态,使AI从脆弱的推理引擎蜕变为稳健的系统级工程伙伴,从而推动复杂长期数字资产的民主化创作。
为何预训练的扩散模型或流匹配策略在障碍物附近、支撑面偏移或轻度杂乱环境中执行相同任务时会失效?这类失效很少源于运动技能的缺失,而是揭示了模仿学习在训练-测试分布偏移下的局限性——动作生成与训练时特定的空间配置和任务规范紧密耦合。通过重新训练或微调来解决这些问题不仅成本高昂,而且存在概念偏差,因为所需的行为本已存在,却无法在测试时被选择性适配。我们提出视觉语言引导(VLS),一种无需重新训练的冻结生成式机器人策略推理时适配框架。VLS将适配视为推理时的控制问题,通过引导预训练扩散/流匹配策略的采样过程来响应分布外观测-语言输入,且无需修改策略参数。该框架利用视觉语言模型合成轨迹可微的奖励函数,引导去噪过程生成满足测试时空间与任务要求的动作轨迹。在仿真与真实环境评估中,VLS持续优于现有引导方法,在CALVIN任务上提升31%,在LIBERO-PRO任务上提升13%。弗兰卡机器人的真实部署进一步验证了其在测试时空间与语义偏移下的鲁棒推理时适配能力。项目页面:https://vision-language-steering.github.io/webpage/
前沿语言模型已展现出强大的推理能力和长程工具使用能力。然而现有检索增强生成系统未能有效利用这些能力,仍依赖两种范式:一是设计单次检索段落并拼接至模型输入的算法;二是预定义工作流程并引导模型逐步执行。这两种范式均未让模型参与检索决策,导致系统无法随模型能力提升而高效扩展。本文提出A-RAG框架,将分层检索接口直接开放给模型使用。该框架提供关键词搜索、语义搜索和分块阅读三种检索工具,使智能体能够跨多粒度自适应搜索信息。在多个开放域问答基准测试中,A-RAG以相当或更少的检索标记量持续超越现有方法,证明其能有效利用模型能力并动态适应不同RAG任务。我们进一步系统研究了A-RAG随模型规模与测试时计算量的扩展规律。代码与评估套件已开源:https://github.com/Ayanami0730/arag。
搜索代理是通过推理和检索知识库(或网络)来回答问题的大语言模型;当前方法主要采用带可验证奖励的强化学习(RLVR),仅对最终答案的准确性进行监督。现有RLVR搜索代理多处理通用领域问答,这限制了其在科学、工程和医学等AI技术系统中的适用性。本研究提出训练代理检索和推理科学论文的能力——既能检验技术性问答水平,又直接关联实际科研工作者的需求,这种能力对未来"AI科学家"系统至关重要。具体而言,我们发布了包含1600万篇生物医学论文摘要的检索语料库,并构建了具有6万个可解答样本的挑战性事实问答数据集PaperSearchQA及其基准测试。在该环境中训练的搜索代理表现优于非强化学习的检索基线;我们进一步开展定量分析,观察到代理表现出规划、推理和自我验证等有趣行为。我们的语料库、数据集和基准测试可与流行的RLVR训练代码库Search-R1兼容,并发布于https://huggingface.co/collections/jmhb/papersearchqa。最后,我们的数据创建方法具备可扩展性,能轻松适配其他科学领域。
大型语言模型(LLMs)的快速发展已超越单GPU硬件的演进速度,使得模型规模日益受限于内存容量而非计算能力。尽管现代训练系统通过分布式并行及跨CPU与存储层级的卸载技术扩展GPU内存,但其本质上仍维持以GPU为中心的执行范式——GPU需承载持久化模型副本与完整自动微分图。这导致大模型扩展仍紧密耦合于多GPU集群、复杂分布式运行时以及不可预测的主机内存消耗,为指令调优、对齐训练和领域适配等节点级训练后工作负载设置了巨大障碍。我们提出Horizon-LM这一以内存为中心的训练系统,重新定义CPU与GPU在大模型优化中的角色。该系统将主机内存作为权威参数存储库,通过CPU主导、GPU协从的执行模式,仅将GPU用作瞬态计算引擎。通过消除持久化GPU驻留模块与自动微分图、采用手动梯度传播的显式重计算技术,并引入流水线双缓冲执行引擎,Horizon-LM实现了模型规模与GPU数量的解耦,将内存使用量约束于理论参数空间。在配备1.5TB主机内存的单个H200 GPU上,Horizon-LM可稳定训练高达1200亿参数的模型。在标准单A100设备上,其训练吞吐量较DeepSpeed ZeRO-3结合CPU卸载方案提升最高达12.2倍,且保持数值准确性。跨平台与跨规模的实验表明,Horizon-LM能维持高设备利用率和可预测的内存增长,证明主机内存(而非GPU内存)才真正定义了节点级大模型训练的可行性边界。
针对软件工程领域大语言模型智能体发展的可验证数据集稀缺问题,我们提出MEnvAgent——一种支持多语言的自动化环境构建框架。该框架通过规划-执行-验证的多智能体架构自主解决环境构建故障,并创新性地引入环境复用机制,通过增量式修补历史环境显著降低计算开销。基于涵盖10种编程语言的千级任务基准测试MEnvBench的实验表明,MEnvAgent在失败转通过率上较基线提升8.6%,同时时间成本降低43%。基于此框架构建的MEnvData-SWE成为迄今规模最大的开源多语言可验证Docker环境数据集,其配套的解决方案轨迹能持续提升各类模型在软件工程任务上的表现。相关代码、基准测试及数据集已开源:https://github.com/ernie-research/MEnvAgent。
大型语言模型(LLMs)即使在没有明确线索或恶意内容的情况下,也可能从看似良性的训练数据中习得非预期的偏见。现有方法难以在微调前检测此类风险,导致事后评估成本高昂且效率低下。为应对这一挑战,我们提出Data2Behavior新任务——在模型训练前预测其非预期行为。同时提出轻量级方法MDF(基于数据特征操控),该方法通过候选数据的均值表征进行数据摘要,并将其注入基础模型的前向传播过程,使数据中的潜在统计信号能够塑造模型激活状态,从而在不更新任何参数的情况下揭示潜在偏见与安全风险。MDF仅需消耗微调所需GPU资源的约20%,即可实现可靠预测。在Qwen3-14B、Qwen2.5-32B-Instruct和Gemma-3-12b-it上的实验证实,MDF能有效预测非预期行为,并为预训练阶段的脆弱性分析提供洞见。
在多轮智能体-环境交互过程中,动态管理思维与观察是提升智能体效能的新兴策略。然而现有研究往往均等对待整个交互轨迹,忽视了不同轮次中思维必要性与观察效用的动态变化。为此,我们首先定量研究了思维与观察对智能体效能的影响机制。基于研究发现,我们提出Agent-Omit统一训练框架,使大语言模型智能体能够自适应地省略冗余思维与观察。具体而言,我们首先合成包含单轮与多轮省略场景的小规模冷启动数据,通过微调培养智能体的省略行为。进一步提出省略感知的智能体强化学习方法,结合双重采样机制与定制化省略奖励,激励智能体的自适应省略能力。理论上我们证明了省略策略的偏差存在KL散度上界。在五个智能体基准测试上的实验表明,我们构建的Agent-Omit-8B模型性能可比肩七种前沿大语言模型智能体,并在与七种高效大语言模型智能体方法的对比中实现了最佳效能平衡。代码与数据已开源:https://github.com/usail-hkust/Agent-Omit。
高效工具使用与推理能力是大型推理模型解决复杂现实问题的核心。通过实证分析,我们发现当前模型在复杂工具使用场景中缺乏子任务分解能力,导致出现"惰性推理"现象。为此,我们提出两阶段训练框架D-CORE(任务解构与推理流程组合),首先通过自蒸馏技术激发模型的子任务分解推理能力,随后采用多样性感知强化学习恢复其反思性推理能力。D-CORE在不同基准测试和模型规模下均实现了稳健的工具使用提升。BFCLv3实验表明:D-CORE-8B模型达到77.7%准确率,较最佳8B模型提升5.7%;D-CORE-14B更以79.3%准确率刷新纪录,在体积仅为1/5的情况下超越70B模型。源代码已发布于https://github.com/alibaba/EfficientAI。
近期,统一多模态模型(UMM)在理解与生成任务上均取得了显著进展。然而,这两种能力是否真正在单一模型内实现对齐与融合仍不明确。为探究此问题,我们提出GapEval——一个双向评估基准,旨在量化理解与生成能力间的差距,并定量测量两个"统一"方向的认知一致性。该基准的每个问题均可通过图像和文本双模态作答,从而对称评估模型的双向推理能力与跨模态一致性。实验表明,在不同架构的多种UMM中,两个方向始终存在性能差距,这暗示当前模型仅实现了表层统一,而非深层的认知融合。为深入探索内在机制,我们从知识操纵角度展开实证研究以揭示其根本局限。研究发现,UMM中的知识常处于割裂状态,跨模态的能力涌现与知识发展存在异步性,这为后续研究指明了方向。
空间推理是人类认知的基本能力,但仍是当代视觉语言模型(VLM)面临的主要挑战。现有研究多依赖合成或大语言模型生成的环境,其任务设计有限且呈谜题式结构,未能捕捉VLM在真实场景中遇到的复杂视觉噪声与多样化空间关系。为此,我们推出SpatiaLab——一个在真实无约束场景下评估VLM空间推理能力的综合基准。该基准包含1,400个视觉问答对,涵盖相对定位、深度与遮挡、方向判定、尺寸与比例、空间导航及三维几何六大类别,每个类别下设五个子类,共形成30种任务类型。每个子类至少包含25道题目,主类别题目量均超过200道,支持多项选择与开放式评估。通过对开源/闭源模型、专注推理的模型及专用空间推理模型等多类前沿VLM的实验,发现其空间推理能力与人类存在显著差距:在多项选择测试中,InternVL3.5-72B准确率为54.93%,而人类达87.57%;开放式测试中所有模型性能下降约10-25%,最佳模型GPT-5-mini仅获40.93%,人类则为64.93%。这些结果揭示了VLM在处理复杂空间关系、深度感知、导航及三维几何方面的核心局限。通过提供多样化的真实场景评估框架,SpatiaLab不仅揭示了推进VLM空间推理能力的关键挑战与机遇,更为未来研究实现鲁棒且符合人类认知的空间理解提供了基准导向。SpatiaLab已开源:https://spatialab-reasoning.github.io/。
针对代码相关任务训练大语言模型通常依赖高质量的代码-文档对,这类数据不仅标注成本高昂,在特定编程语言中往往极为稀缺。我们提出BatCoder——一种自监督强化学习框架,通过联合优化代码生成与文档生成任务。该框架采用回译策略:首先从代码生成文档,再利用生成的文档重构原始代码。原始代码与重构代码之间的语义相似度作为隐式奖励信号,通过强化学习同步提升模型从文档生成代码和从代码生成文档的能力。这种方法仅需代码数据即可完成训练,显著扩大了可用训练样本规模。在HumanEval和MBPP基准测试中,基于7B参数的BatCoder模型分别达到83.5%和81.0%的pass@1准确率,优于现有强开源基线模型。此外,该框架在训练数据规模和模型容量方面均展现出良好的扩展性。
在推理基准测试中通过强化学习微调大型语言模型时,通常需要为每个基准设定特定的奖励函数(常为二元形式)。这种做法存在两个潜在局限:奖励函数需要人工设计,且二元奖励可能具有稀疏性。本文系统研究了基于参考答案(或数据中存在的其他提示续写)生成概率或对数概率的奖励机制,其优势在于不依赖特定验证器且可大规模获取。近期多项研究(如VeriFree、JEPO、RLPR、NOVER)已倡导使用类似奖励机制。我们通过系统对比基于似然度的奖励变体与标准基线,在标准数学推理基准和无法使用外部验证器的长文本答案场景下测试性能。研究发现,在思维链学习中,使用参考答案的对数概率作为奖励是唯一能在所有设定下均表现良好的方案,该奖励机制也与预训练阶段使用的下一词元对数似然损失保持一致。在可验证场景中,对数概率奖励相较于标准二元奖励能取得相当或更高的成功率,并显著降低困惑度;在不可验证场景中,其表现与监督微调相当。而基于概率的方法(如VeriFree)因正确答案概率趋近于零,在不可验证场景中效果停滞。总体而言,本研究确立了对数概率奖励作为思维链微调的有效方法,弥合了短文本可验证与长文本不可验证答案场景之间的鸿沟。
当前具身视觉语言模型的评估依赖于静态、专家定义且需人工标注的基准测试集,这些数据集存在严重冗余和覆盖不均衡问题。这种劳动密集型范式不仅消耗大量计算与标注资源、推高成本,还会扭曲模型排名,最终阻碍迭代发展。为此,我们提出智能体自动评估框架(A2Eval),首次通过双智能体协同实现基准测试集的自动构建与评估。数据智能体自主归纳能力维度并组装平衡紧凑的评估套件,评估智能体则综合验证可执行评估流程,实现全自动高保真评估。在10个基准测试集和13个模型上的实验表明,A2Eval将评估套件压缩85%,整体计算成本降低77%,速度提升4.6倍且保持评估质量。更重要的是,该框架修正了系统性排名偏差,使人类对齐度提升至斯皮尔曼系数0.85,并保持高排名保真度(肯德尔系数0.81),为高保真低成本的具身评估树立了新标准。我们的代码与数据即将公开。
基于视觉定位的多模态命名实体识别(GMNER)旨在提取文本实体、分配语义类别并将其关联至对应视觉区域。本研究探索了多模态大语言模型(MLLMs)以端到端方式执行GMNER任务的潜力,突破其在级联管道中作为辅助工具的传统定位。关键发现表明,MLLMs存在模态偏差(包括视觉偏差与文本偏差),其根源在于模型倾向于采用单模态捷径而非严格的跨模态验证。为此,我们提出模态感知一致性推理(MCR)方法,通过多风格推理模式注入(MRSI)与约束引导可验证优化(CVO)实现结构化跨模态推理。MRSI将抽象约束转化为可执行推理链,CVO则通过群体相对策略优化(GRPO)使模型动态对齐推理轨迹。在GMNER和视觉定位任务上的实验表明,MCR能有效缓解模态偏差,较现有基线方法展现出更优性能。
自回归视频扩散模型因其因果建模和迭代去噪特性近期获得广泛研究关注。本研究发现,该类模型中的多头自注意力机制对历史帧的利用存在不足:约25%的注意力头几乎仅关注当前帧,丢弃其KV缓存仅导致轻微性能下降。基于此,我们提出虚拟强制(Dummy Forcing)方法,通过异质内存分配减少注意力头间的上下文冗余,并结合动态头编程自适应分类注意力头类型。此外,我们开发了上下文打包技术以实现更激进的缓存压缩。无需额外训练,该方法在基线模型上实现最高2.0倍加速,支持24.3 FPS的视频生成且质量损失低于0.5%。项目页面详见https://csguoh.github.io/project/DummyForcing/。
我们针对五对突厥语族语言开展了机器翻译研究:俄语-巴什基尔语、俄语-哈萨克语、俄语-吉尔吉斯语、英语-鞑靼语、英语-楚瓦什语。通过在合成数据上使用LoRA微调nllb-200-distilled-600M模型,哈萨克语达到chrF++ 49.71,巴什基尔语达到46.94。采用检索相似示例提示DeepSeek-V3.2的方法,楚瓦什语取得chrF++ 39.47。鞑靼语的零样本及检索方法获得chrF++ 41.6,而吉尔吉斯语的零样本方法达到45.6。我们公开了数据集与训练所得的权重参数。
近期,多智能体讨论(MAD)研究日益受到关注,该方法通过多个大语言模型实例进行结构化讨论以协同解决问题。然而我们发现,现有MAD方法易出现讨论不一致问题——由于各智能体上下文语境不匹配,模型难以形成连贯的解决方案。本文提出一种多智能体上下文学习方法(M2CL),通过为每个智能体训练能动态生成上下文指令的生成器,实现基于自动信息组织与精炼的逐轮语境生成。具体而言,受我们对上下文指令的理论启示,M2CL通过精心设计的自适应机制训练生成器,以控制上下文连贯性与输出差异度,使大语言模型能够规避对多数噪声的过早收敛,逐步达成正确共识。我们在学术推理、具身任务和移动控制等挑战性任务上评估M2CL,结果表明其性能显著超越现有方法20%-50%,同时具备良好的迁移性和计算效率。
生成式3D模型的快速普及使蒙皮绑定成为动画流程中的关键瓶颈。现有自动化方法受限于其蒙皮权重处理方式——将其视为不适定的高维回归任务,这种优化效率低下且通常与骨骼生成解耦。我们认为这是表征方式的问题,因此提出SkinTokens:一种习得的紧凑离散式蒙皮权重表征。通过利用FSQ-CVAE捕捉蒙皮固有的稀疏性,我们将任务从连续回归重构为更易处理的标记序列预测问题。该表征催生了TokenRig框架,这个统一的自回归框架将整个绑定系统建模为骨骼参数与SkinTokens的单一序列,从而学习骨骼与蒙皮变形间的复杂依赖关系。统一模型随后可进入强化学习阶段,通过定制的几何与语义奖励提升对复杂分布外资产的泛化能力。量化实验表明,SkinTokens表征将蒙皮精度较现有最优方法提升98%-133%,而经过RL优化的完整TokenRig框架则将骨骼预测效果提升17%-22%。本研究提出了一种统一的生成式绑定方案,在保证高保真度与鲁棒性的同时,为3D内容创作中的长期挑战提供了可扩展的解决方案。
本文提出自激励序列蒙特卡洛方法(self-rewarding SMC),这是一种推理阶段扩展算法,能够有效采样掩码扩散语言模型(MDLM)。该算法的提出源于我们观察到:现有MDLM大多依赖基于置信度的采样策略,即在每一步仅保留预测置信度最高的标记。这种策略将生成过程限制在噪声敏感的贪婪解码范式内,导致可能路径的多样性不可避免地衰减。我们通过并行启动多个相互作用的扩散过程(称为粒子)进行轨迹探索来解决该问题。关键创新在于引入轨迹级置信度作为自激励信号,用于分配粒子重要性权重。在采样过程中,通过迭代式的粒子加权与重采样,系统性地引导生成过程朝向全局置信度高的优质样本。我们在多种掩码扩散语言模型和基准测试上验证了自激励SMC的有效性,该方法无需额外训练或奖励指导即可实现显著提升,并能将并行推理能力有效转化为采样质量的改进。代码已开源:https://github.com/Algolzw/self-rewarding-smc。
我们提出了蛋白质自回归建模(PAR),这是首个通过从粗到精的跨尺度预测来实现蛋白质主链生成的多尺度自回归框架。PAR利用蛋白质的层级化特性,通过模拟雕塑过程——先构建粗粒度拓扑再逐级细化结构细节——来生成结构。该框架包含三个核心组件:(i)多尺度下采样操作,在训练过程中表征不同尺度的蛋白质结构;(ii)自回归变换器,负责编码多尺度信息并生成指导结构生成的条件嵌入;(iii)基于流模型的主链解码器,根据条件嵌入生成主链原子。针对自回归模型因训练与生成过程不匹配而存在的暴露偏差问题,我们通过噪声上下文学习与计划采样策略有效缓解了其对结构生成质量的影响。值得注意的是,PAR展现出强大的零样本泛化能力,支持无需微调即可实现灵活的人工提示条件生成及基序支架构建。在无条件生成基准测试中,PAR不仅高效学习蛋白质分布并生成具有高设计质量的主链,还展现出优异的尺度扩展特性。这些优势共同确立了PAR作为蛋白质结构生成领域的突破性框架。
放射学分析正日益受益于预训练视觉表征,这种表征能够支持跨影像模态的异构下游任务。本研究推出OmniRad——一个基于放射学原理设计的自监督放射学基础模型,该模型在120万张医学图像上完成预训练,其设计理念强调表征复用与跨任务可迁移性。我们通过多种下游适配机制评估预训练编码器,包括采用冻结主干网络搭配轻量级任务适配器,以及针对分类任务的全端到端微调,从而综合评估表征质量与任务特定性能。在涵盖多模态分类与分割的公共基准测试中,OmniRad表现出色:在MedMNISTv2数据集上,其分类F1分数较同类基础模型最高提升2.05%;在六组MedSegBench数据集的密集预测任务中,使用冻结表征时平均Dice分数实现全面提升。定性分析与隐空间可视化结果表明,该模型具有更优的特征聚类能力与模态相关性分离特性。
近期研究将近端策略优化(PPO)确立为RLHF中强化学习部分的标准方法。PPO虽在实践中表现良好,但其启发式设计动机导致其对语言模型RLHF中的KL散度约束采取临时处理方式,存在奖励振荡、熵崩溃、价值函数漂移及策略突然发散等问题,需频繁重启和大量超参数调优。本文针对LM-RLHF场景提出一种全新的纯在线演员-评论员强化学习方法SAFE(基于熵感知控制的稳定对齐微调)。该创新算法融合了用于悲观价值估计的双重软最小评论员架构,以及结合熵门控KL调节与PID控制自适应阈值的新型多层稳定框架。与标准PPO的对称KL惩罚机制不同,SAFE能区分高熵探索与低熵模式崩溃,并根据奖励变化速度动态调整惩罚力度。在30亿参数模型上的实验表明,SAFE相比PPO实现训练平均奖励提升5.15%(0.725 vs 0.689),奖励崩溃可忽略不计,且KL控制能力显著优于PPO。本方法仅增加极小计算开销,提供可解释、防崩溃的RLHF框架,在保持激进学习速度的同时确保适合生产部署的长期稳定优化。代码已开源:https://github.com/ryyzn9/SAFE
现代语言模型几乎完全基于固定分词器产生的标记序列进行训练,这种外部无损压缩器通常作用于UTF-8字节序列,从而将模型与该压缩器耦合。本研究提出代理压缩方法——一种替代性训练方案,既能保持压缩输入带来的效率优势,又能在推理时提供端到端的原始字节接口。训练过程中,语言模型通过联合学习原始字节序列和外部压缩器生成的压缩视图,逐步建立内部对齐机制以实现两种格式的相互映射。这种对齐机制使得模型即使在主要使用压缩数据训练(推理时弃用)的情况下,仍能实现两种格式间的强效迁移。在代码语言建模上的大量实验表明,代理压缩方法在提升训练效率的同时,在固定计算预算下显著优于纯字节级基线模型。随着模型规模扩大,这些优势愈加明显:代理训练模型最终达到或媲美分词器方法的性能,且全程仅处理原始字节,保留了字节级建模固有的鲁棒性。
4D生成技术从输入文本、图像或视频合成动态3D物体已取得显著进展。然而,现有方法常将运动表示为隐式变形场,限制了直接控制与可编辑性。为此,我们提出SkeletonGaussian——一个从单目视频输入生成可编辑动态3D高斯模型的新框架。该方法引入分层铰接式表征,将运动显式解耦为由骨骼驱动的稀疏刚性运动与细粒度非刚性运动。具体而言,我们通过线性混合蒙皮提取鲁棒骨骼并驱动刚性运动,再利用基于六平面结构的优化器处理非刚性变形,从而提升可解释性与可编辑性。实验结果表明,SkeletonGaussian在生成质量上超越现有方法,同时支持直观的运动编辑,为可编辑4D生成建立了新范式。项目页面:https://wusar.github.io/projects/skeletongaussian/
尽管大语言模型多智能体系统通过迭代辩论实现了卓越的推理性能,但其高昂的计算成本和错误传播问题限制了实际部署。本文提出AgentArk框架,通过将多智能体动态蒸馏至单一模型的权重中,将显式的测试时交互转化为隐式的模型能力。该方法使单个智能体在保持计算高效的同时,具备多智能体系统的智能水平。具体而言,我们探索了跨模型、任务、规模和场景的三层次蒸馏策略:推理增强微调、基于轨迹的数据增强和过程感知蒸馏。通过将计算负担从推理阶段转移至训练阶段,蒸馏后的模型既保持了单智能体的效率,又展现出多智能体强大的推理与自我修正能力,并在多样化推理任务中表现出更强的鲁棒性和泛化性。本研究有望为高效鲁棒的多智能体开发提供新思路。代码已开源:https://github.com/AIFrontierLab/AgentArk。
大型语言模型(LLMs)的推理故障通常仅在生成结果阶段被评估,然而许多故障表现为过程层面的崩溃:模型在推理过程中"偏离主线"。我们研究是否能够通过标准API中可获取的推理时观测指标(词元对数概率),无需任何训练或微调即可检测此类崩溃。我们定义了一个结合连续步骤分布偏移(JSD)和不确定性(熵)的简易不稳定性信号,通过峰值不稳定性强度对每个推理轨迹进行汇总,并证明该信号能可靠预测故障。在GSM8K和HotpotQA数据集中,不稳定性强度以高于随机水平的AUC值预测错误答案,并随模型规模扩大呈现桶级准确率单调下降。关键发现是,不稳定性并非均匀有害:早期不稳定性可能反映后续稳定过程并得出正确答案(校正性不稳定),而晚期不稳定性更易导致失败(破坏性不稳定)——即使峰值强度相近,这表明可恢复性不仅取决于分布变化强度,更与变化发生时点相对于剩余解码长度的位置相关。该方法具备模型无关性、免训练性和可复现性,其定位是诊断视角而非校正或控制机制。
直接对齐方法正日益广泛地用于将大语言模型(LLM)与人类偏好对齐。然而,许多现实世界的对齐问题涉及多个相互冲突的目标,简单聚合偏好的方法可能导致训练不稳定和糟糕的权衡效果。具体而言,加权损失方法可能无法识别能同时改善所有目标的更新方向,而现有多目标方法通常依赖显式奖励模型,这会引入额外复杂性并扭曲用户指定的偏好。本文的贡献包含两方面:首先,我们提出面向冲突目标的无奖励对齐框架(RACO),该框架直接利用成对偏好数据,并通过一种新型的冲突规避梯度下降剪裁变体来解决梯度冲突。我们提供了遵循用户指定目标权重的帕累托临界点收敛保证,并进一步证明在双目标场景下剪裁操作能严格提升收敛速率。其次,我们通过启发式策略改进方法,并通过实验验证所提框架在LLM对齐任务中的兼容性。基于多类LLM(Qwen 3、Llama 3、Gemma 3)在多目标摘要生成和安全对齐任务上的定性与定量评估表明,相较于现有多目标对齐基线方法,我们的方案能持续实现更优的帕累托权衡。
我们提出LongVPO——一种新颖的两阶段直接偏好优化框架,可使短上下文视觉语言模型无需任何长视频标注即可稳健理解超长视频。在第一阶段,我们通过将问题锚定到独立短视频片段、穿插干扰项,并应用视觉相似性与问题特异性过滤来合成偏好三元组,从而消除位置偏差并确保明确的监督信号。同时通过仅评估锚定片段来近似参考模型对长上下文的评分,显著降低计算开销。第二阶段采用递归描述流程生成长视频的场景级元数据,继而利用大语言模型构建多片段推理查询与负向响应,通过多片段推理任务对齐模型偏好。仅使用1.6万个合成样本且无需昂贵人工标注,LongVPO在多个长视频基准测试中超越最先进开源模型,同时保持强劲的短视频性能(如MVBench),为高效长视频理解提供了可扩展的范式。
我们推出FOTBCD——一个基于法国国家地理与森林信息局(IGN)权威正射影像与地形建筑数据构建的大规模建筑物变化检测数据集。与现有局限于单一城市或特定区域的基准数据集不同,FOTBCD覆盖法国本土28个省级行政区,其中25个用于训练,另外三个地理隔离的行政区留作评估。该数据集以0.2米/像素的分辨率涵盖城市、郊区及乡村等多种环境。我们公开发布FOTBCD-Binary数据集,包含约2.8万组前后时相图像对及像素级二元建筑物变化掩膜,每组数据均附带图斑级空间元数据。该数据集专为地理域偏移下的大规模基准测试与评估设计,其验证集与测试集样本均来自预留行政区,并经过人工核验以确保标注质量。此外,我们同步公开FOTBCD-Instances实例级标注子集,包含数千组图像对,展示了完整版FOTBCD实例级数据所采用的标注规范。通过固定参考基线,我们将FOTBCD-Binary与LEVIR-CD+、WHU-CD进行基准测试,有力证实数据集层面的地理多样性有助于提升建筑物变化检测的跨域泛化能力。
在检索、分类和排序等对延迟性、稳定性和成本要求极高的系统中,仅编码器架构的Transformer模型仍不可或缺。然而,通用编码器大多基于通用语料库训练,对专业领域的覆盖有限。我们推出RexBERT系列——专为电子商务语义设计的BERT风格编码器模型,并做出三项贡献。首先,我们发布Ecom-niverse语料库,这是一个从多元零售与购物数据源精选出的3500亿词元语料库。我们提出模块化流水线,可从FineFineWeb等开放网络资源中隔离提取电商内容,并量化分析所得语料的领域分布特征。其次,基于ModernBERT的架构创新,我们提出可复现的预训练方案,包含三阶段训练策略:通用预训练、上下文扩展及退火领域专项化。最后,我们训练参数量从1700万到4亿不等的RexBERT模型,并基于电商数据集在词元分类、语义相似度和通用自然语言理解任务上开展评估。实验表明,尽管参数量减少2-3倍,RexBERT在领域专项评测中不仅超越更大规模的通用编码器,还可媲美或优于现代长上下文模型。我们的结果证明:高质量领域内数据与原则性训练方法的结合,能为电商应用提供比盲目扩大模型规模更坚实的基础。
大型语言模型(LLMs)仍会生成听起来合理但缺乏事实依据的论断,这一问题在多轮对话中随着语境扩展和早期错误的累积而加剧。我们推出HalluHard基准测试集,包含涵盖法律案例、研究问题、医疗指南和代码编程四大高风险领域的950个种子问题,通过要求对事实陈述提供文内引用来具象化内容真实性。为支持开放场景下的可靠评估,我们提出一种基于网络搜索的迭代证据检索判定流程,能够获取、筛选并解析全文来源(包括PDF文件),以验证引用内容是否切实支撑生成文本。在对多种前沿专有模型和开源权重模型的测试中,即使接入网络搜索,幻觉现象依然显著(最强配置Opus-4.5配合网络搜索的幻觉率约为30%),且内容锚定错误持续高发。最后我们发现,幻觉行为受模型容量、对话轮次位置、有效推理能力及所需知识类型共同影响。