每日精选AI研究论文及翻译
通过强化学习(RL)对语言模型(LMs)进行后训练,无需监督微调即可提升其复杂推理能力,这一点已由DeepSeek-R1-Zero所证实。然而,有效利用RL于LMs需要大规模的并行化以扩展推理能力,这不仅带来了非平凡的技术挑战(如延迟、内存和可靠性问题),还伴随着不断攀升的经济成本。我们提出了Swarm采样策略优化(SAPO),一种完全去中心化且异步的RL后训练算法。SAPO专为异构计算节点组成的去中心化网络设计,其中每个节点管理自己的策略模型,同时与网络中的其他节点“共享”轨迹;无需对延迟、模型同质性或硬件做出明确假设,节点也可根据需要独立运行。因此,该算法在扩展RL后训练时避免了常见的瓶颈,同时允许(甚至鼓励)新的可能性。通过采样网络中“共享”的轨迹,它促使“顿悟时刻”传播,从而引导学习过程。本文中,我们展示了SAPO在控制实验中实现了高达94%的累积奖励增益。我们还分享了在开源演示期间,由Gensyn社区成员贡献的数千个节点网络上的测试见解,这些节点在多样化的硬件和模型上运行该算法。
并行思维作为一种新兴方法,旨在通过同时探索多条推理路径来增强大语言模型(LLMs)的推理能力。然而,通过训练激活这种能力仍面临挑战,因为现有方法主要依赖于对合成数据进行监督微调(SFT),这鼓励了教师强制模仿而非探索与泛化。与此不同,我们提出了Parallel-R1,这是首个能够针对复杂现实世界推理任务实现并行思维行为的强化学习(RL)框架。我们的框架采用渐进式课程,明确解决了在RL训练中并行思维的冷启动问题。我们首先在较简单任务上通过SFT对提示生成的轨迹进行训练,以培养并行思维能力,随后转向RL,在更复杂问题上探索并泛化这一技能。在包括MATH、AMC23和AIME在内的多个数学基准测试中,实验表明Parallel-R1成功植入了并行思维,相较于直接在挑战性任务上使用RL训练的序列思维模型,准确率提升了8.4%。进一步分析揭示了模型思维行为的明显转变:早期阶段,它将并行思维作为探索策略;而在后期阶段,则利用同一能力进行多视角验证。最为重要的是,我们验证了并行思维作为训练中期探索支架的作用,这一临时探索阶段在RL后解锁了更高的性能上限,在AIME25上相比基线提升了42.9%。我们的模型、数据和代码将在https://github.com/zhengkid/Parallel-R1开源。
通过视觉指令调优训练的多模态大语言模型(MLLMs)已在多种任务中展现出强劲性能,但在以视觉为中心的任务如物体计数或空间推理方面仍显不足。我们将此差距归因于当前主流的纯文本监督范式,该范式仅为视觉路径提供间接指导,常导致MLLMs在训练过程中忽略细粒度的视觉细节。本文提出视觉表示对齐(VIRAL),一种简洁而有效的正则化策略,旨在将MLLMs的内部视觉表示与预训练视觉基础模型(VFMs)的表示对齐。通过显式实施这种对齐,VIRAL不仅使模型能够保留来自输入视觉编码器的关键视觉细节,还能补充VFMs提供的额外视觉知识,从而增强其处理复杂视觉输入时的推理能力。我们的实验表明,在广泛采用的多模态基准测试中,所有任务均实现了持续改进。此外,我们进行了全面的消融研究,以验证框架设计的关键选择。我们相信,这一简单发现为在MLLMs训练中有效整合视觉信息开辟了重要方向。
近期,大型多模态模型的发展通过结合图像工具与强化学习,有效应对了视觉问题。然而,现有的开源方法往往表现出单一的推理模式,且仅允许有限的交互轮次,这使得它们在需要反复试错探索的复杂任务中显得力不从心。本研究通过扩大基于工具的交互规模,引入了Mini-o3系统,该系统能够执行深度、多轮次的推理——跨越数十步——并在具有挑战性的视觉搜索任务中实现了最先进的性能。我们复现OpenAI o3风格行为的方案包含三个关键组成部分。首先,我们构建了视觉探测数据集,这是一个包含数千个设计用于探索性推理的复杂视觉搜索问题的集合。其次,我们开发了一个迭代数据收集管道,以获取展现多样化推理模式(包括深度优先搜索、试错法和目标维持)的冷启动轨迹。第三,我们提出了一种超轮次掩码策略,在强化学习过程中避免对达到最大轮次的响应进行惩罚,从而在训练效率与测试可扩展性之间取得平衡。尽管训练时仅设定了最多六轮交互的上限,我们的模型在推理时能够自然扩展到数十轮,且随着轮次增加,准确性也随之提升。大量实验证明,Mini-o3能够生成丰富的推理模式和深度的思考路径,有效解决复杂的视觉搜索问题。
统一多模态模型(UMMs)将视觉理解与生成整合于单一架构之中。然而,传统训练依赖于图像-文本对(或序列),其描述通常较为简略,缺乏对视觉细节的精细刻画——即便用数百字描述一幅简单图像时亦是如此。我们提出了重建对齐(RecA),这是一种资源高效的后训练方法,它利用视觉理解编码器的嵌入作为密集的“文本提示”,无需依赖标注即可提供丰富的监督信息。具体而言,RecA让UMM以其自身的视觉理解嵌入为条件,并通过自监督的重建损失优化模型以重构输入图像,从而实现理解与生成的对齐。尽管方法简洁,RecA却具有广泛的适用性:在自回归、掩码自回归及基于扩散的UMMs中,它均能持续提升生成与编辑的保真度。仅需27个GPU小时,采用RecA进行后训练便显著提升了在GenEval(0.73→0.90)和DPGBench(80.93→88.15)上的图像生成性能,同时也在编辑基准测试中取得进步(ImgEdit 3.38→3.75,GEdit 6.94→7.25)。尤为突出的是,RecA超越了众多规模更大的开源模型,并广泛适用于多种UMM架构,确立了其作为UMMs高效通用后训练对齐策略的地位。
近期图像定制技术的进步,因其强大的定制能力展现出广泛的应用前景。然而,由于人类对面部更为敏感,如何在多参考图像中保持身份一致性并避免身份混淆,成为一大挑战,这限制了定制模型在身份维度上的扩展性。为此,我们提出了UMO(统一多身份优化框架),旨在实现高保真的身份保持,并缓解身份混淆问题,同时提升扩展性。UMO通过“多对多匹配”范式,将多身份生成重构为全局分配优化问题,并通过对扩散模型的强化学习,普遍释放现有图像定制方法的多身份一致性。为支持UMO的训练,我们构建了一个包含合成与真实部分的多参考图像可扩展定制数据集。此外,我们提出了一种新的度量标准来评估身份混淆程度。大量实验表明,UMO不仅显著提升了身份一致性,还在多种图像定制方法上减少了身份混淆,在身份保持维度上树立了开源方法的新标杆。代码与模型详见:https://github.com/bytedance/UMO。
在动态视觉环境中执行语言条件任务仍然是具身人工智能的核心挑战。现有的视觉-语言-动作(VLA)模型主要采用反应式的状态到动作映射,往往导致短视行为和在动态场景中的鲁棒性较差。本文介绍了F1,一个预训练的VLA框架,它将视觉预见生成整合到决策流程中。F1采用了一种混合Transformer架构,包含专门的感知、预见生成和控制模块,从而将理解、生成和行动相连接。F1的核心是采用了一种下一尺度预测机制,以合成目标条件的视觉预见作为明确的规划目标。通过预测可能的未来视觉状态,F1将动作生成重新表述为一个预见引导的逆动力学问题,使得动作能够隐式地实现视觉目标。为了赋予F1强大且可泛化的能力,我们提出了一种三阶段训练方案,使用包含136个多样化任务中超过33万条轨迹的广泛数据集进行训练。这一训练方案增强了模块化推理能力,并赋予模型可迁移的视觉预见能力,这对于复杂和动态环境至关重要。在现实世界任务和仿真基准上的广泛评估表明,F1始终优于现有方法,在任务成功率和泛化能力上均取得了显著提升。
强化学习(RL)在提升大型语言模型(LLMs)的复杂推理能力方面已展现出显著成效,然而推动这一成功的内在机制仍大多不明。我们的分析揭示,诸如“顿悟时刻”、“长度缩放”及熵动态等令人费解的现象并非孤立事件,而是涌现出的推理层级的标志,类似于人类认知中高层战略规划与低层程序执行的分离。我们发现了一个引人注目的两阶段动态:起初,模型受限于程序正确性,必须提升其低层技能;随后,学习瓶颈发生决定性转移,性能提升转而依赖于高层战略规划的探索与掌握。这一洞见揭示了当前主流RL算法(如GRPO)的核心低效性,这些算法不加区分地施加优化压力,将学习信号分散至所有标记上。为此,我们提出了层级感知信用分配(HICRA),一种专注于高影响力规划标记的优化算法。HICRA显著超越了强基线模型,证明聚焦于这一战略瓶颈是解锁高级推理的关键。此外,我们验证了语义熵作为衡量战略探索的优越指南,相较于易产生误导的标记级熵等指标,其表现更为出色。
近年来,大型语言模型(LLMs)在规模扩展、海量高质量训练数据及强化学习的推动下取得了飞速进展。然而,这一进步面临着一个根本性瓶颈:模型需要持续学习的数据量不断增长。在本研究中,我们提出了一种强化学习方法,通过使模型无需额外数据即可自我提升,从而摆脱这一依赖。我们的方法采用了一种博弈论框架下的自我对弈机制,将模型的能力转化为在竞争性游戏中的表现,并通过模型与自身对弈——我们称之为“语言自我对弈”(LSP)——来催生更强策略。基于Llama-3.2-3B-Instruct模型在指令跟随基准上的实验表明,预训练模型不仅能够仅通过自我对弈提升其在复杂任务上的表现,而且其效果优于基于数据驱动的基线方法。
AI辅助的放射学解读主要依赖于狭窄、单一任务的模型。这种方法难以覆盖广泛的成像模式、疾病及放射学发现。基础模型(FMs)展现出跨模态和在低数据环境下广泛泛化的潜力。然而,这一潜力在放射学领域大多尚未实现。我们推出了Curia,这是一个基于某大型医院多年全部横断面成像输出训练的基础模型,据我们所知,这是迄今为止最大的真实世界数据集,包含15万次检查(130TB)。在一个新构建的包含19项任务的外部验证基准上,Curia能够准确识别器官、检测如脑出血和心肌梗死等病症,并预测肿瘤分期的结果。Curia在性能上达到或超越了放射科医生及近期的基础模型,并在跨模态和低数据场景下展现出具有临床意义的新兴特性。为加速研究进展,我们在https://huggingface.co/raidium/curia发布了基础模型的权重。
基于可验证奖励的强化学习(RLVR)在提升大语言模型(LLMs)的推理能力方面取得了显著成功。然而,现有的RLVR方法常因训练数据难度与模型能力不匹配而面临探索效率低下的问题。当问题过于复杂时,LLMs难以发现可行的推理路径;而当问题过于简单时,模型又难以学到新的能力。在本研究中,我们通过量化损失下降速度与推理准确率之间的关系,形式化地分析了问题难度的影响。基于这一分析,我们提出了SEELE,一种新颖的监督辅助RLVR框架,它能动态调整问题难度,使其始终保持在高效区域。SEELE通过在原始问题后附加提示(完整解答的一部分)来增强每个训练样本。与以往的提示方法不同,SEELE有意识地、自适应地调整每个问题的提示长度,以达到最佳难度。为了确定最优提示长度,SEELE采用了一种多轮推理采样策略。在每一轮中,它根据前几轮收集的准确率-提示对拟合一个项目反应理论模型,以预测下一轮所需的提示长度。这种实例级、实时的难度调整使问题难度与模型能力的演进保持一致,从而提高了探索效率。实验结果表明,SEELE在六个数学推理基准测试中,分别比组相对策略优化(GRPO)和监督微调(SFT)高出+11.8和+10.5分,平均比之前最佳的监督辅助方法高出+3.6分。
在标准的因果注意力机制中,每个标记的查询、键和值(QKV)是静态的,仅编码先前的上下文信息。我们引入了带有前瞻键的因果注意力机制(CASTLE),该机制随着上下文的展开不断更新每个标记的键。我们将这些更新后的键称为前瞻键,因为它们属于较早的位置,却整合了相对于这些位置之后出现的标记信息,同时严格保持了自回归特性。尽管该机制看似是顺序执行的,但我们推导出了一个数学等价形式,避免了在每个位置显式生成前瞻键,从而实现了高效的并行训练。在语言建模基准测试中,CASTLE在不同规模的模型上均优于标准因果注意力机制,降低了验证困惑度,并在一系列下游任务中提升了性能。
近期研究表明,通过可微分奖励直接对齐扩散模型与人类偏好具有显著效果。然而,这类方法面临两大挑战:(1)它们依赖多步去噪过程中的梯度计算进行奖励评分,计算成本高昂,因此优化仅限于少数扩散步骤;(2)为达到理想的美学质量,如照片级真实感或精确的光照效果,往往需要持续离线调整奖励模型。针对多步去噪的限制,我们提出了Direct-Align方法,该方法预先定义噪声先验,通过插值有效恢复任意时间步的原始图像,利用扩散状态是噪声与目标图像间插值的特性,有效避免了后期时间步的过度优化。此外,我们引入了语义相对偏好优化(SRPO),将奖励构建为文本条件信号。这一方法能够在线响应正负提示增强调整奖励,从而减少对离线奖励微调的依赖。通过对FLUX.1.dev模型进行优化去噪与在线奖励调整的微调,我们将其人类评估的真实感与美学质量提升了超过3倍。
我们推出了SimpleQA Verified,这是一个包含1000个提示的基准测试集,用于评估基于OpenAI SimpleQA的大型语言模型(LLM)在简短事实性回答上的表现。该基准测试集针对OpenAI原有基准测试中的关键局限进行了改进,包括噪声与错误标签、主题偏见以及问题冗余等问题。SimpleQA Verified通过一个严格的多阶段筛选流程创建,涉及去重、主题平衡及来源核实,旨在生成一个更为可靠且具挑战性的评估集,同时对自动评分提示进行了优化。在这一新基准测试中,Gemini 2.5 Pro以55.6的F1分数达到了当前最先进水平,超越了包括GPT-5在内的其他前沿模型。此项工作为研究社区提供了一个高保真工具,以追踪参数模型在事实准确性上的真实进展,并有效减少幻觉现象。基准测试数据集、评估代码及排行榜可在以下网址获取:https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified。
文本到图像的扩散模型在计算上极为密集,通常需要多次通过庞大的Transformer骨干网络进行前向传播。例如,Stable Diffusion XL通过评估一个拥有26亿参数的模型50次来生成高质量图像,这一过程即使对于单个批次而言也代价高昂。少步扩散模型将这一成本降低至2到8次去噪步骤,但仍依赖于未压缩的大型U-Net或扩散Transformer骨干网络,这些网络在没有数据中心级GPU的情况下进行全精度推理往往过于昂贵。这些要求也限制了依赖全精度校准的现有训练后量化方法。我们引入了Q-Sched,这是一种新的训练后量化范式,它调整扩散模型的调度器而非模型权重。通过调整少步采样轨迹,Q-Sched在模型尺寸减少4倍的同时保持了全精度准确性。为了学习量化感知的预处理系数,我们提出了JAQ损失,该损失结合了文本-图像兼容性与图像质量指标,用于细粒度优化。JAQ无需参考图像,仅需少量校准提示,避免了校准期间的全精度推理。Q-Sched带来了显著提升:相较于FP16 4步潜在一致性模型,FID提升了15.5%;相较于FP16 8步阶段一致性模型,提升了16.6%,表明量化与少步蒸馏在高保真生成方面具有互补性。一项包含超过80,000条注释的大规模用户研究进一步证实了Q-Sched在FLUX.1[schnell]和SDXL-Turbo上的有效性。
我们提出了Delta L归一化方法,这是一种简单而有效的损失聚合策略,专门针对可验证奖励强化学习(RLVR)中动态生成长度的特性设计。近期,RLVR在提升大规模语言模型(LLMs)推理能力方面展现出巨大潜力,但训练过程中响应长度的大幅波动导致梯度方差高、优化不稳定,成为主要挑战。尽管GRPO、DAPO及Dr. GRPO等先前方法引入了不同的损失归一化项以应对此问题,但它们要么产生有偏估计,要么仍面临高梯度方差困扰。通过理论与实证分析长度变化对策略损失的影响,我们将问题重新表述为寻找最小方差无偏估计量。所提出的Delta L归一化不仅提供了真实策略损失的无偏估计,理论上还最小化了梯度方差。大量实验表明,该方法在不同模型规模、最大长度及任务上均能稳定取得优异结果。我们的代码将公开于https://github.com/zerolllin/Delta-L-Normalization。
大型语言模型(LLMs)在处理文本任务方面展现了惊人的多功能性,催生了无数以往难以想象的应用。相比之下,检索模型尚未出现如此强大的通用模型。要实现这一目标,检索模型必须能够执行复杂的检索任务,其中查询包含自然语言中的多个部分、约束或要求。这些任务代表了从现有大多数常用评估集中使用的简单、单一维度查询的自然演进。随着人们期望搜索系统能够处理更具体且往往更具挑战性的信息请求,复杂查询自然产生,这一点在人们使用基于LLM的信息系统时得到了体现。尽管对检索模型在复杂检索任务中扩展能力的渴望日益增长,但评估检索模型在多样化复杂任务集上能力的资源仍然有限。现有的少数资源往往范围有限,且缺乏真实场景设置,难以了解检索模型在复杂现实世界检索任务中的真实能力。为弥补这一不足并推动下一代检索模型的创新,我们构建了一个多样且真实的复杂检索任务集,并对一系列具有代表性的最先进检索模型进行了基准测试。此外,我们还探讨了基于LLM的查询扩展和重写对检索质量的影响。我们的结果表明,即使是最好的模型在高质量检索结果方面也面临挑战,所有任务中的平均nDCG@10最高仅为0.346,R@100最高仅为0.587。虽然LLM增强可以帮助较弱的模型,但最强模型在所有重写技术下的各项指标均有所下降。
随着生成式AI系统在科学、商业和政府领域的日益普及与能力提升,深入理解其失效模式已成为当务之急。这些系统行为中偶发的波动性,如Transformer模型易产生幻觉的倾向,阻碍了高风险领域对新兴AI解决方案的信任与采纳。在本研究中,我们通过稀疏自编码器捕捉的概念表征,在输入空间不确定性受控的实验场景下,确立了预训练Transformer模型何时及如何产生幻觉。系统性实验揭示,随着输入信息愈发非结构化,Transformer模型所使用的语义概念数量随之增加。面对输入空间不确定性的增长,Transformer模型倾向于激活连贯但与输入无关的语义特征,从而导致幻觉输出。极端情况下,对于纯噪声输入,我们在预训练Transformer模型的中间激活中识别出大量被稳定触发且有意义的概念,并通过定向引导验证了其功能完整性。我们还展示了,Transformer模型输出中的幻觉能够可靠地通过Transformer层激活中嵌入的概念模式进行预测。这一系列关于Transformer内部处理机制的洞见,对于使AI模型与人类价值观对齐、AI安全、潜在对抗攻击面的开启,以及为模型幻觉风险的自动量化提供基础,均具有直接意义。