每日精选AI研究论文及翻译
本文综述了强化学习(Reinforcement Learning, RL)在大型语言模型(Large Language Models, LLMs)推理领域的最新进展。RL在提升LLM能力边界方面取得了显著成就,尤其是在解决数学与编程等复杂逻辑任务上。因此,RL已成为将LLMs转化为逻辑推理模型(Logical Reasoning Models, LRMs)的基础方法论。随着该领域的快速发展,RL在LRMs上的进一步扩展不仅面临计算资源的基础性挑战,还涉及算法设计、训练数据及基础设施等方面。鉴于此,重新审视这一领域的发展历程,评估其发展轨迹,并探索增强RL向人工超级智能(Artificial SuperIntelligence, ASI)可扩展性的策略,显得尤为及时。特别是,我们考察了自DeepSeek-R1发布以来,将RL应用于LLMs和LRMs以提升推理能力的研究,包括基础组件、核心问题、训练资源及下游应用,旨在识别这一快速演进领域的未来机遇与方向。我们期望本综述能促进RL在更广泛推理模型上的未来研究。GitHub地址:https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
奖励模型(RMs)对于通过强化学习(RL)提升生成模型至关重要,然而在视觉生成领域,RM的扩展范式仍鲜有探索。这主要源于现有方法的根本性局限:基于CLIP的RMs受限于架构与输入模态的约束,而广泛采用的Bradley-Terry损失函数与视觉语言模型(VLMs)的下一令牌预测机制存在本质上的不匹配,阻碍了有效扩展。更为关键的是,RLHF优化过程饱受“奖励欺骗”问题的困扰,即模型利用奖励信号中的漏洞而不提升真实质量。为应对这些挑战,我们提出了RewardDance,一个可扩展的奖励建模框架,通过创新的生成式奖励范式突破上述障碍。RewardDance将奖励分数重新定义为模型预测“是”令牌的概率,该令牌表示根据特定标准,生成图像优于参考图像,从而在本质上使奖励目标与VLM架构对齐。这一对齐解锁了两个维度的扩展:(1)模型扩展:系统性地将RMs扩展至高达260亿参数;(2)上下文扩展:整合任务特定指令、参考示例及链式思维(CoT)推理。大量实验表明,RewardDance在文本到图像、文本到视频及图像到视频生成任务中显著超越现有最先进方法。尤为重要的是,我们解决了长期存在的“奖励欺骗”难题:我们的大规模RMs在RL微调过程中展现出并维持高奖励方差,证明了其对欺骗的抵抗能力及生成多样化高质量输出的能力,极大地缓解了困扰较小模型的模式崩溃问题。
世界建模已成为人工智能研究的基石,使智能体能够理解、表征并预测其所处的动态环境。尽管先前的研究主要侧重于针对二维图像和视频数据的生成方法,但它们忽视了日益增多的利用原生三维和四维表示(如RGB-D图像、占据栅格和LiDAR点云)进行大规模场景建模的工作。同时,“世界模型”缺乏标准化定义和分类体系,导致文献中的观点分散且有时不一致。本综述通过首次专门针对三维和四维世界建模与生成的全面回顾,填补了这些空白。我们确立了精确的定义,引入了一个涵盖基于视频(VideoGen)、基于占据(OccGen)和基于LiDAR(LiDARGen)方法的结构化分类体系,并系统总结了适用于三维/四维场景的数据集和评估指标。此外,我们探讨了实际应用,识别了开放挑战,并强调了有前景的研究方向,旨在为该领域的进步提供一个连贯且基础性的参考。现有文献的系统总结可在https://github.com/worldbench/survey获取。
开发能够通过一系列智能决策解决复杂现实任务的自主大语言模型(LLM)代理,是一个快速发展的前沿领域。与人类认知发展类似,代理被期望通过探索和与环境互动来获取知识和技能。尽管已有诸多进展,研究界仍缺乏一个统一的、交互式的强化学习(RL)框架,能够在多样且真实的环境中,无需依赖监督微调(SFT),从头开始有效训练此类代理。为填补这一空白,我们引入了AgentGym-RL,这是一个通过RL训练LLM代理进行多轮交互决策的新框架。该框架采用模块化和解耦的架构,确保了高度的灵活性和可扩展性,涵盖了广泛的现实场景,并支持主流的RL算法。此外,我们提出了ScalingInter-RL,一种旨在平衡探索与利用并实现稳定RL优化的训练方法。在早期阶段,它通过限制交互次数强调利用,随后逐步转向更大范围的探索,以鼓励多样化的解题策略。这样,代理能够发展出更多样化的行为,且在长时间跨度下不易崩溃。我们进行了大量实验,验证了AgentGym-RL框架和ScalingInter-RL方法的稳定性和有效性。我们的代理在多种环境下的27项任务中,表现与商业模型相当或更优。我们提供了关键见解,并将开源完整的AgentGym-RL框架——包括代码和数据集——以赋能研究社区开发下一代智能代理。
将三维资产分割成其组成部分对于提升三维理解、促进模型复用以及支持诸如部件生成等多种应用至关重要。然而,现有方法在处理复杂物体时存在鲁棒性不足的问题,且无法实现全自动化流程。本文提出了一种原生三维点提示部件分割模型,命名为P3-SAM,旨在实现对任意三维物体组件的全自动分割。受SAM启发,P3-SAM由特征提取器、多个分割头及IoU预测器组成,支持用户进行交互式分割。我们还提出了一种算法,用于自动选择并合并模型预测的掩码,以实现部件实例分割。我们的模型在一个新构建的数据集上训练,该数据集包含近370万个带有合理分割标签的模型。对比实验表明,我们的方法在任意复杂物体上均能实现精确分割结果,展现出极强的鲁棒性,达到了业界领先水平。代码即将发布。
在本报告中,我们介绍了首个开源的多语言翻译模型——Hunyuan-MT-7B,该模型支持33种主要语言间的双向互译,并特别关注普通话与多种少数民族语言及方言之间的翻译。此外,为应对多样化的翻译场景并提升模型在测试时的表现,我们引入了受慢思考模式启发的翻译模型Hunyuan-MT-Chimera-7B。该模型整合了Hunyuan-MT-7B在不同参数设置下生成的多个输出,从而实现了超越传统基于思维链(CoT)慢思考模型的性能。我们的模型开发遵循了专为多语言翻译设计的整体训练流程,从通用及面向机器翻译的预训练开始,构建基础能力,继而通过监督微调(SFT)进行任务特定适应,最终通过强化学习(RL)及弱到强RL实现高级对齐。通过全面实验,我们证明Hunyuan-MT-7B与Hunyuan-MT-Chimera-7B在同等参数规模的翻译专用模型及多数SOTA大模型上均表现优异,尤其在普通话与少数民族语言及方言的翻译任务中。在WMT2025共享任务(通用机器翻译)中,我们的模型展现了顶尖性能,在31个语言对中的30个排名第一。这一成果凸显了我们的模型在涵盖高资源语言(如中文、英文、日文)及低资源语言(如捷克语、马拉地语、爱沙尼亚语、冰岛语)在内的广泛语言谱系中的强大鲁棒性。
现代大型语言模型(LLMs)在生成合成数据方面表现出色。然而,在诸如文本去毒等敏感领域,其性能尚未得到科学界的充分关注。本文探讨了利用LLM生成的合成有毒数据作为人类生成数据的替代方案,用于训练去毒模型的可能性。通过使用Llama 3和Qwen激活修补模型,我们为ParaDetox和SST-2数据集中的中性文本生成了合成有毒对应物。实验表明,基于合成数据微调的模型表现始终逊色于使用人类数据训练的模型,联合指标性能下降高达30%。根本原因被确定为关键的词汇多样性差距:LLMs使用少量重复的侮辱性词汇生成有毒内容,未能捕捉到人类毒性的细微差别和多样性。这些发现凸显了当前LLMs在该领域的局限性,并强调了多样化、人工标注数据在构建鲁棒去毒系统中的持续重要性。
生成式人工智能正逐渐成为一项重要技术,有望在众多领域带来变革。然而,生成式AI技术本质上基于概率模型的采样,默认情况下,它们无法保证正确性、安全性、公平性或其他属性。统计方法为提高生成式AI技术的可靠性提供了一条有前景的潜在途径。此外,统计方法在提升AI评估的质量与效率,以及设计AI干预措施和实验方面也展现出巨大潜力。本文回顾了这些主题下的现有研究,既阐述了所采用的通用统计技术,也探讨了它们在生成式AI中的应用。同时,我们还将讨论当前研究的局限性和未来可能的发展方向。
通过生成多个独立解决方案并进行选择或聚合,扩大测试时的计算规模已成为提升大语言模型(LLMs)在复杂推理任务上表现的核心范式。尽管先前的研究大多依赖简单的多数投票或奖励模型排序来整合解决方案,这些方法可能仅带来有限的改进。在本研究中,我们提出将聚合作为一种显式推理技能来学习:给定一组候选解决方案,我们训练一个聚合模型,通过可验证奖励的强化学习,来审查、调和并综合出最终正确答案。关键在于精心平衡训练样本的难易程度,使模型既能学会恢复少数但正确的答案,也能掌握多数正确的简单答案。实证结果表明,我们的方法AggLM在多个基准测试上均优于基于规则和奖励模型的基线方法。此外,它能够有效泛化至不同模型的解决方案,包括训练数据中未包含的更强模型,同时相比需要大量解决方案的多数投票,显著减少了所需的token数量。
开源代码库的广泛普及催生了大量可复用的软件组件,然而其使用方式仍停留在手动、易出错且孤立的状态。开发者需要查阅文档、理解API并编写集成代码,这为高效的软件复用设置了显著障碍。为解决这一问题,我们提出了EnvX框架,该框架利用智能代理AI将GitHub代码库转化为智能自主代理,使其具备自然语言交互和代理间协作的能力。与将代码库视为静态代码资源的现有方法不同,EnvX通过三阶段流程重新构想其为活跃代理:(1) TODO引导的环境初始化,设置必要的依赖项、数据和验证数据集;(2) 人机对齐的代理自动化,使特定代码库的代理能够自主执行现实任务;(3) 代理间(A2A)协议,支持多个代理协作。通过将大语言模型能力与结构化工具集成相结合,EnvX不仅自动化了代码生成,还实现了理解、初始化和操作代码库功能的完整流程自动化。我们在GitTaskBench基准上评估了EnvX,使用了涵盖图像处理、语音识别、文档分析和视频处理等领域的18个代码库。结果显示,EnvX实现了74.07%的执行完成率和51.85%的任务通过率,优于现有框架。案例研究进一步展示了EnvX通过A2A协议实现多代码库协作的能力。这项工作标志着从将代码库视为被动代码资源到智能交互代理的转变,促进了开源生态系统内更大的可访问性和协作性。
随着人类将更多任务和决策权委托给人工智能(AI),我们正面临失去对个人及集体未来掌控的风险。相对简单的算法系统已在引导人类决策,例如社交媒体推送算法导致人们无意识地浏览优化参与度的内容。本文通过整合哲学与科学中的能动性理论及AI辅助评估方法,发展了人类能动性的概念:利用大型语言模型(LLMs)模拟和验证用户查询,并评估AI的响应。我们开发了HumanAgencyBench(HAB),一个基于典型AI应用场景、包含六个维度人类能动性的可扩展自适应基准。HAB衡量AI助手或代理在以下方面的倾向:询问澄清问题、避免价值操纵、纠正错误信息、推迟重要决策、鼓励学习以及维护社交边界。我们发现,当前基于LLM的助手对人类能动性的支持程度处于低至中等水平,且不同系统开发者和维度间存在显著差异。例如,尽管Anthropic的LLM在整体上最支持人类能动性,但在避免价值操纵方面却是支持最少的。能动性支持似乎并不一致地源于LLM能力的提升或指令遵循行为(如RLHF),我们鼓励转向更稳健的安全性和对齐目标。