每日精选AI研究论文及翻译
大规模可验证奖励强化学习(RLVR)已展现出其在挖掘大型语言模型(LLMs)单轮推理任务潜力方面的显著成效。在实际推理场景中,LLMs常借助外部工具辅助任务解决过程。然而,现有强化学习算法未能充分平衡模型内在的长程推理能力与多轮工具交互的熟练度。为弥合这一差距,我们提出了面向多轮LLM代理训练的创新型强化学习算法——代理式强化策略优化(ARPO)。初步实验表明,LLMs在与外部工具交互后,往往表现出高度不确定的行为,具体表现为生成词汇的熵分布显著增加。基于这一观察,ARPO引入了基于熵的自适应滚动机制,动态平衡全局轨迹采样与步骤级采样,从而在工具使用后高不确定性步骤上促进探索。通过整合优势归因估计,ARPO使LLMs能够在逐步工具使用交互中内化优势差异。我们在计算推理、知识推理及深度搜索领域的13个挑战性基准测试中进行的实验,证实了ARPO相较于轨迹级强化学习算法的优越性。尤为突出的是,ARPO仅需现有方法一半的工具使用预算,便实现了性能提升,为LLM代理与实时动态环境的对齐提供了可扩展的解决方案。我们的代码及数据集已发布于https://github.com/dongguanting/ARPO。
大型语言模型(LLMs)已展现出强大的能力,但其本质上仍属静态,无法根据新任务、演进的知识领域或动态交互情境调整内部参数。随着LLMs越来越多地部署于开放、互动的环境中,这种静态特性已成为关键瓶颈,亟需能够实时适应、推理和进化的智能体。这一范式转变——从扩展静态模型到开发自我进化智能体——激发了人们对支持从数据、交互和经验中持续学习与适应的架构和方法的日益关注。本综述首次系统全面地回顾了自我进化智能体,围绕三大基础维度展开:进化什么、何时进化以及如何进化。我们探讨了智能体各组件(如模型、记忆、工具、架构)的进化机制,按阶段(如测试期间、测试间)分类适应方法,并分析了指导进化适应的算法与架构设计(如标量奖励、文本反馈、单智能体与多智能体系统)。此外,我们分析了专为自我进化智能体设计的评估指标与基准测试,强调了在编程、教育、医疗等领域的应用,并指出了在安全性、可扩展性及协同进化动力学方面的关键挑战与研究方向。通过提供一个理解与设计自我进化智能体的结构化框架,本综述为推进适应性智能体系统的研究与实际部署绘制了路线图,最终为迈向人工超级智能(ASI)的实现铺平道路,在此愿景下,智能体自主进化,在广泛任务中达到或超越人类智能水平。
现实世界中用户生成的短视频,尤其是在微信视频号和抖音等平台上广泛传播的内容,已成为移动互联网的主导力量。然而,当前的大型多模态模型缺乏关键的时间结构化、细致且深入的视频理解能力,而这些能力正是高效视频搜索与推荐以及新兴视频应用的基础。理解现实短视频实际上颇具挑战性,原因在于其复杂的视觉元素、视觉与音频中高密度的信息含量,以及注重情感表达与观点传递的快速节奏。这需要高级推理能力,以有效整合包括视觉、音频和文本在内的多模态信息。在本研究中,我们推出了ARC-Hunyuan-Video,一个能够从原始视频输入端到端处理视觉、音频及文本信号,实现结构化理解的多模态模型。该模型具备多粒度时间戳视频描述与摘要生成、开放式视频问答、时间视频定位及视频推理能力。依托自动化标注管道产生的高质量数据,我们通过一套全面的训练方案——包括预训练、指令微调、冷启动、强化学习(RL)后训练及最终指令微调——训练了这款紧凑的7B参数模型。在我们引入的ShortVid-Bench基准上的定量评估及定性对比中,该模型展现了其在现实视频理解方面的强劲性能,并支持零样本或少样本微调以适应多样化的下游应用。该模型在实际生产环境中的部署,已显著提升了用户参与度和满意度,其卓越效率亦得到验证,压力测试显示在H20 GPU上,一分钟视频的推理时间仅需10秒。
尽管前沿的大型语言模型(LLMs)不断突破能力边界,但其部署仍局限于依赖GPU的云端基础设施。我们通过SmallThinker系列模型挑战这一范式,该系列模型原生设计——而非适配——以应对本地设备的独特限制:计算能力弱、内存有限及存储速度慢。不同于主要针对云端构建的现有模型进行压缩的传统方法,我们从零开始构建SmallThinker,使其在这些限制下蓬勃发展。我们的创新在于采用了一种部署感知的架构,将约束转化为设计原则。首先,我们引入了一种结合细粒度专家混合(MoE)与稀疏前馈网络的双层稀疏结构,大幅降低计算需求而不牺牲模型能力。其次,为克服慢速存储的I/O瓶颈,我们设计了一个预注意力路由器,使我们的协同设计推理引擎在计算注意力的同时预取专家参数,有效隐藏了原本会阻碍设备端推理的存储延迟。第三,为提升内存效率,我们采用NoPE-RoPE混合稀疏注意力机制,大幅减少KV缓存需求。我们发布了SmallThinker-4B-A0.6B和SmallThinker-21B-A3B,它们不仅达到了最先进的性能评分,甚至超越了更大的LLMs。尤为显著的是,我们的协同设计系统几乎消除了对昂贵GPU硬件的需求:在Q4_0量化下,两个模型在普通消费级CPU上均能实现超过20 tokens/s的速度,同时仅分别消耗1GB和8GB内存。SmallThinker现已公开,访问地址为hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct和hf.co/PowerInfer/SmallThinker-21BA3B-Instruct。
尽管多任务学习在利用跨任务互补知识方面展现出潜力,现有多任务优化(MTO)技术仍局限于通过以优化器为中心的损失缩放和梯度操控策略来解决冲突,却未能带来一致的性能提升。本文主张,在任务交互自然发生的共享表示空间中,蕴含着丰富的信息和操作潜力,这些操作与现有优化器形成互补,尤其是在促进任务间互补性方面,而这一点在MTO中鲜有探索。这一洞见催生了Rep-MTL,它利用表示层面的任务显著性来量化任务特定优化与共享表示学习之间的交互。通过基于熵的惩罚机制和样本级跨任务对齐来引导这些显著性,Rep-MTL旨在通过维持各任务的有效训练而非单纯解决冲突来减轻负迁移,同时明确促进互补信息共享。实验在涵盖任务迁移和领域迁移场景的四个具有挑战性的MTL基准上进行。结果表明,即使搭配基本的等权重策略,Rep-MTL也能实现具有竞争力的性能提升,且效率优异。除标准性能指标外,幂律指数分析进一步证实了Rep-MTL在平衡任务特定学习与跨任务共享方面的有效性。项目页面可访问此处。
从视觉观察中重建四维空间智能一直是计算机视觉领域核心且富有挑战性的任务,其应用范围广泛。这些应用从娱乐领域如电影制作——其中重点常在于重建基础视觉元素,到具身人工智能——强调交互建模与物理真实感。得益于三维表示与深度学习架构的快速发展,该领域迅速演进,已超越以往综述的涵盖范围。此外,现有综述鲜少对四维场景重建的层次结构进行全面分析。为填补这一空白,我们提出了一种新视角,将现有方法组织为五个渐进层次的四维空间智能:(1) 第一层次——重建低层次三维属性(如深度、姿态及点云图);(2) 第二层次——重建三维场景组件(如物体、人物、结构);(3) 第三层次——重建四维动态场景;(4) 第四层次——建模场景组件间的交互;(5) 第五层次——融入物理定律与约束。综述最后,我们讨论了每一层次的关键挑战,并指出了向更丰富四维空间智能迈进的有前景方向。为追踪最新进展,我们维护了一个实时更新的项目页面:https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence。
近期,如群体相对策略优化(GRPO)等进展,通过优化词元级奖励的算术平均值,显著提升了大型语言模型的推理能力。然而,GRPO在处理具有异常重要性加权奖励的词元时,存在策略更新不稳定的问题,这表现为训练期间重要性采样比率(即当前策略与旧策略对某词元采样概率之比)的极端波动。本研究中,我们提出了几何平均策略优化(GMPO),作为GRPO的稳定化变体。GMPO不再优化算术平均,而是最大化词元级奖励的几何平均,这一方法天生对异常值不敏感,并能维持更为稳定的重要性采样比率范围。此外,我们提供了全面的理论与实验分析,以论证GMPO设计的合理性及其稳定性优势。除了稳定性提升外,GMPO-7B在多个数学基准测试中平均超越GRPO达4.1%,在多模态推理基准测试中也有1.4%的提升,涵盖AIME24、AMC、MATH500、OlympiadBench、Minerva及Geometry3K等数据集。代码已发布于https://github.com/callsys/GMPO。
具备长链思维(CoT)能力的大型推理模型(LRM)在数学推理和编程等客观任务上展现了强劲性能。然而,面对可能因视角不同而答案各异的主观问题时,其效能仍受限于同质化推理倾向,这一倾向源于监督微调中对单一标准答案的依赖以及强化学习中可验证奖励的引入。鉴于增加角色视角能持续提升表现这一发现,我们提出了MultiRole-R1,一个融合多角色视角的多样性增强框架,旨在提升主观推理任务的准确性与多样性。MultiRole-R1采用无监督数据构建流程,生成包含多样化角色视角的推理链。此外,我们通过群体相对策略优化(GRPO)结合奖励塑造实施强化学习,将多样性作为除可验证奖励之外的额外奖励信号。借助精心设计的奖励函数,我们成功促进了视角多样性与词汇多样性,揭示了推理多样性与准确性之间的正向关联。在六个基准测试上的实验验证了MultiRole-R1在增强主客观推理方面的有效性和普适性,展现了多样性增强训练在LRM中的巨大潜力。
近期,以GPT-4o为代表的大型多模态模型在指令引导的高保真图像编辑领域树立了新的标杆。然而,这些模型及其训练数据的专有性质为开源研究设置了重大障碍。为弥合这一鸿沟,我们推出了GPT-IMAGE-EDIT-1.5M,这是一个公开的大规模图像编辑语料库,包含超过150万组高质量三元组(指令、源图像、编辑后图像)。我们系统性地构建了这一数据集,利用GPT-4o的多样化能力,统一并优化了三个流行的图像编辑数据集:OmniEdit、HQ-Edit和UltraEdit。具体而言,我们的方法包括:1)重新生成输出图像以提升视觉质量与指令对齐度;2)选择性重写提示词以增强语义清晰度。为验证数据集的有效性,我们在GPT-IMAGE-EDIT-1.5M上对先进的开源模型进行了微调。实证结果令人振奋,例如,微调后的FluxKontext在一系列综合基准测试中展现出极具竞争力的性能,包括在GEdit-EN上获得7.24分,在ImgEdit-Full上获得3.80分,在Complex-Edit上获得8.78分,显示出更强的指令遵循能力和更高的感知质量,同时保持了身份一致性。这些分数显著超越了所有先前发布的开源方法,并大幅缩小了与领先专有模型的差距。我们期望GPT-IMAGE-EDIT-1.5M的全面发布能够推动指令引导图像编辑领域的进一步开放研究。
学习视觉表征是众多下游任务的基础。尽管近期如CLIP和SigLIP等视觉-语言对比模型通过大规模视觉-语言对齐实现了令人瞩目的零样本性能,但它们对全局表征的依赖限制了其在密集预测任务(如定位、OCR和分割)中的有效性。为弥补这一不足,我们提出了区域感知聚类判别(RICE)这一新方法,旨在增强区域级别的视觉与OCR能力。我们首先构建了一个包含十亿级候选区域的数据集,并引入区域Transformer层以提取丰富的区域语义信息。进一步地,我们设计了一种统一的区域聚类判别损失函数,该函数在一个分类框架内同时支持物体与OCR学习,从而实现了在大规模数据上的高效可扩展分布式训练。大量实验表明,RICE在包括分割、密集检测及多模态大语言模型(MLLMs)视觉感知等任务上,均持续超越先前方法。预训练模型已发布于https://github.com/deepglint/MVT。
近期,大规模语言模型(LLMs)的进展凸显了通过可验证奖励的强化学习(RLVR)在扩展输出序列中提升推理能力的潜力。然而,传统RL框架在处理超长输出时,因长尾序列分布及训练过程中的熵崩溃问题而效率低下。为应对这些挑战,我们提出了一种超长输出强化学习(UloRL)方法,旨在提升大规模语言模型的推理能力。具体而言,我们将超长输出解码划分为短片段,通过缓解长尾样本导致的延迟实现高效训练。此外,我们引入了动态掩码技术,针对已掌握的正向标记(MPTs)进行调控,以防止熵崩溃。实验结果表明了该方法的有效性。在Qwen3-30B-A3B模型上,采用分段展开的RL训练速度提升了2.06倍,而针对128k令牌输出的RL训练,使模型在AIME2025上的表现从70.9%提升至85.1%,在BeyondAIME上从50.7%提升至61.9%,甚至超越了Qwen3-235B-A22B,取得了显著进步。这些发现强调了我们的方法在推动LLMs超长序列生成推理能力方面的潜力。我们将公开代码和模型,以供社区进一步使用。
全球气候变化导致极端天气事件频发,亟需提高天气预报的准确性。近年来,得益于深度学习技术,端到端方法取得了显著进展,但在多变量整合中存在表征不一致的局限,难以有效捕捉复杂天气系统中变量间的依赖关系。将不同变量视为独立模态并采用多模态模型的两阶段训练方法虽能部分缓解此问题,但由于两阶段训练任务的不一致性,结果往往不尽如人意。为应对这些挑战,我们提出了一种隐式两阶段训练方法,为每个变量配置独立的编码器和解码器。具体而言,第一阶段冻结翻译器,让编码器和解码器学习共享的潜在空间;第二阶段则冻结编码器和解码器,由翻译器捕捉变量间的交互以进行预测。此外,通过在潜在空间中引入自注意力机制进行多变量融合,性能得到进一步提升。大量实验表明,我们的方法达到了业界领先水平,特别是在近地表气温和相对湿度预测上,均方误差分别降低了28.82%和23.39%。源代码已发布于https://github.com/ShremG/Met2Net。
文档图像校正旨在消除拍摄文档中的几何变形,以便于文本识别。然而,现有方法往往忽视了前景元素的重要性,这些元素为文档图像校正提供了关键的几何参考和布局信息。本文中,我们引入了前景中心网络(ForCenNet)来消除文档图像中的几何失真。具体而言,我们首先提出了一种前景中心标签生成方法,该方法从未失真的图像中提取详细的前景元素。随后,我们引入了一种前景中心掩码机制,以增强可读区域与背景区域之间的区分度。此外,我们设计了一种曲率一致性损失,利用详细的前景标签帮助模型理解失真的几何分布。大量实验表明,ForCenNet在DocUNet、DIR300、WarpDoc和DocReal四个真实世界基准测试中达到了新的最先进水平。定量分析显示,所提方法有效地校正了文本行和表格边框等布局元素。进一步的比较资源已发布于https://github.com/caipeng328/ForCenNet。
永续3D场景生成致力于产出长距离且连贯的3D视角序列,适用于长期视频合成与3D场景重建。现有方法遵循“导航与想象”模式,依赖外推技术实现连续视角扩展。然而,生成视角序列因外推模块累积偏差而遭遇语义漂移问题。为应对这一挑战,我们提出了ScenePainter,一个确保语义一致性的3D场景生成新框架,它将外推器的场景特定先验与当前场景理解对齐。具体而言,我们引入了一种名为SceneConceptGraph的层次图结构,用于构建多层次场景概念间的关系,指导外推器生成一致的新视角,并能动态优化以增强多样性。大量实验证明,我们的框架有效克服了语义漂移问题,生成了更加一致且沉浸感强的3D视角序列。项目页面:https://xiac20.github.io/ScenePainter/。
扩散模型与流匹配模型近年来彻底革新了自动文本到音频生成技术。这些模型在生成高质量、忠实捕捉语音及声学事件的音频输出方面日益精进。然而,在主要涉及音乐与歌曲的创意音频生成领域,仍有广阔提升空间。近期开放的歌词到歌曲生成模型,如DiffRhythm、ACE-Step和LeVo,已在娱乐用途的自动歌曲生成中树立了可接受的标准。然而,这些模型在音乐家工作流程中常需的细粒度词级可控性方面仍显不足。据我们所知,基于流匹配的JAM模型是首个致力于在歌曲生成中赋予词级时间与时长控制能力的尝试,实现了精细的声乐控制。为提升生成歌曲质量,使其更贴合人类偏好,我们通过直接偏好优化实施美学对齐,利用合成数据集迭代优化模型,省去了手动数据标注的需求。此外,我们旨在通过公开评估数据集JAME,标准化此类歌词到歌曲模型的评估流程。实验表明,JAM在音乐特定属性上超越了现有模型。
我们推出Music Arena,一个用于文本到音乐(TTM)模型可扩展人类偏好评估的开放平台。通过听力研究征求人类偏好是TTM评估的黄金标准,但这些研究成本高昂且难以比较,因为不同系统的研究协议可能各异。此外,人类偏好或许能帮助研究人员调整其TTM系统或改进自动评估指标,但目前尚不存在一个开放且可更新的偏好来源。我们旨在通过提供TTM的*实时*评估来填补这些空白。在Music Arena中,真实用户输入自选的文本提示,并比较两个TTM系统的输出,他们的偏好被用来编制排行榜。尽管Music Arena遵循了其他AI领域近期的评估趋势,我们也为其设计了针对音乐的关键特性:一个基于LLM的路由系统,以导航TTM系统的异质类型签名,以及收集*详细*偏好,包括听力数据和自然语言反馈。我们还提出了一项滚动数据发布政策,确保用户隐私,提供可更新的偏好数据源,并增加平台透明度。通过其标准化的评估协议、透明的数据访问政策以及针对音乐的特性,Music Arena不仅解决了TTM生态系统中的关键挑战,还展示了如何深思熟虑地将实时评估适应于特定AI领域的独特特征。 Music Arena可通过以下网址访问:https://music-arena.org
大型语言模型(LLMs)在通过强化学习提升逐步推理能力方面取得了显著进展。然而,依赖稀疏奖励规则的群体相对策略优化(GRPO)算法常面临组内奖励相同的问题,导致优势崩溃现象。现有研究通常从两个角度应对这一挑战:强制模型反思以增强响应多样性,以及引入内部反馈以强化训练信号(优势)。在本研究中,我们首先分析了模型反思的局限性,并在细粒度样本层面探讨了响应策略的熵。基于实验发现,我们提出了EDGE-GRPO算法,该算法采用熵驱动优势和引导式错误校正,有效缓解了优势崩溃问题。在多个主要推理基准上的广泛实验验证了我们方法的有效性和优越性。相关资源可在https://github.com/ZhangXJ199/EDGE-GRPO获取。
当语言模型(LMs)通过强化学习(RL)训练以生成自然语言“推理链”时,其在多种复杂问答任务上的表现得到提升。目前,几乎所有成功的RL推理应用都采用二元奖励函数来评估LM输出的正确性。由于此类奖励函数不会对猜测或低置信度输出进行惩罚,它们常常无意中导致校准度下降,并增加LM在其他问题领域生成错误响应(或“幻觉”)的频率。本文介绍了RLCR(带校准奖励的强化学习),一种训练推理模型的方法,它同时提高了准确性和校准置信度估计。在RLCR过程中,LMs在推理后生成预测和数值置信度估计。它们被训练以优化一个奖励函数,该函数在二元正确性评分基础上增加了Brier评分——一种激励校准预测的置信度估计评分规则。我们首先证明,该奖励函数(或任何使用有界、适当评分规则的类似奖励函数)能产生预测既准确又校准良好的模型。接着,我们展示在多种数据集上,RLCR显著改善了校准度,且准确度无损失,无论是在域内还是域外评估中——均优于普通RL训练和训练用于分配事后置信度分数的分类器。尽管普通RL损害校准,RLCR却提升了它。最后,我们证明在测试时,可以通过置信度加权缩放方法利用口头表达的置信度来提高准确性和校准度。我们的结果表明,明确优化校准能够产生更普遍可靠的推理模型。
用户模拟器在对话式人工智能中至关重要,它通过模拟交互实现了智能体的可扩展开发与评估。尽管当前的大型语言模型(LLMs)已显著提升了用户模拟能力,但我们发现,在多轮对话中,它们难以持续展现目标导向行为——这一关键局限削弱了其在下游应用中的可靠性。为此,我们引入了用户目标状态追踪(UGST)这一创新框架,用于全程监控对话中的用户目标进展。依托UGST,我们提出了一套三阶段方法论,用于开发能够自主追踪目标进展并推理生成目标一致响应的用户模拟器。此外,我们建立了一套全面的评估指标,用以衡量用户模拟器的目标一致性,并证明我们的方法在MultiWOZ 2.4和{\tau}-Bench两个基准测试上均取得了显著提升。我们的研究填补了对话式人工智能领域的一个关键空白,确立了UGST作为开发目标一致用户模拟器的核心框架地位。
随着各行业对具备复杂数学推理能力的大型语言模型(LLMs)需求日益增长,开发高性能数学LLMs的关键瓶颈在于缺乏新颖且具挑战性的训练数据。为此,我们推出了SAND-Math(合成增强型新颖难题数学问题及解答)流程,该流程首先从零生成高质量问题,随后通过创新的“难度提升”步骤系统性地增加问题复杂度,有效解决了这一难题。我们通过两项核心发现验证了该方法的有效性:其一,将SAND-Math数据融入强基线模型后,性能显著提升,在AIME25基准测试上超越次优合成数据集达17.85个绝对分;其二,专项消融研究显示,“难度提升”过程极为高效,通过将平均问题难度从5.02提升至5.98,AIME25表现从46.38%跃升至49.23%。整套生成流程、最终数据集及微调模型共同构成了一个实用且可扩展的工具包,助力构建更强大、更高效的数学推理LLMs。SAND-Math数据集已发布于:https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}。
基因表达分析是众多生物医学发现的关键,然而从原始转录组数据中提取洞见仍面临巨大挑战,这源于多个大型半结构化文件的复杂性以及对广泛领域专业知识的需求。当前的自动化方法往往受限于两种极端:要么是僵化的工作流程,在边缘情况下失效;要么是完全自主的智能体,缺乏严谨科学探究所需的精确性。GenoMAS开辟了一条新路径,它通过组建一支基于大语言模型(LLM)的科学家团队,将结构化工作流程的可靠性与自主智能体的适应性相结合。GenoMAS通过类型化的消息传递协议协调六个专门的LLM智能体,每个智能体在共享的分析画布上贡献互补的优势。其核心是一个引导式规划框架:编程智能体将高层次任务指南分解为行动单元,并在每个节点选择推进、修订、绕过或回溯,从而在保持逻辑连贯性的同时,灵活适应基因组数据的独特性。 在GenoTEX基准测试中,GenoMAS在数据预处理方面达到了89.13%的综合相似性相关性,在基因识别方面获得了60.48%的F_1分数,分别比之前的最佳成果提高了10.61%和16.85%。除了量化指标,GenoMAS还揭示了与文献相印证、生物学上可信的基因-表型关联,同时调整了潜在的混杂因素。代码可在https://github.com/Liu-Hy/GenoMAS获取。
随着大型语言模型(LLMs)日益集成原生代码解释器,它们实现了强大的实时执行能力,显著扩展了其应用范围。然而,此类集成引入了潜在的系统级网络安全威胁,这些威胁与基于提示的漏洞有本质区别。为了系统评估这些解释器特有的风险,我们提出了CIRCLE(LLM代码解释器韧性检查),这是一个包含1,260个提示的简单基准,旨在针对CPU、内存和磁盘资源耗尽进行测试。每个风险类别均包含明确恶意(“直接”)和看似无害(“间接”)的提示变体。我们的自动化评估框架不仅评估LLMs是否拒绝或生成风险代码,还在解释器环境中执行生成的代码,以评估代码的正确性、LLM为使代码安全而进行的简化,或执行超时情况。通过对OpenAI和Google的7个商用模型进行评估,我们发现了显著且不一致的漏洞。例如,评估结果显示,即便在同一提供商内部也存在巨大差异——OpenAI的o4-mini正确拒绝风险请求的比例为7.1%,远高于GPT-4.1的0.5%。结果特别强调,间接的、社会工程学式的提示大大削弱了模型的防御能力。这凸显了迫切需要针对解释器的网络安全基准、专门的缓解工具(如防护栏)以及明确的行业标准,以指导LLM解释器集成的安全与负责任部署。基准数据集和评估代码已公开发布,以促进进一步研究。