每日精选AI研究论文及翻译
我们证明了使用单一训练样本进行可验证奖励的强化学习(1-shot RLVR)在激励大语言模型(LLMs)的数学推理能力方面具有显著效果。将RLVR应用于基础模型Qwen2.5-Math-1.5B,我们发现一个特定样本能够将模型在MATH500上的表现从36.0%提升至73.6%,并在六个常见数学推理基准测试中的平均表现从17.6%提升至35.7%。这一结果与使用包含该样本的1.2k DeepScaleR子集所获得的性能相当(MATH500:73.6%,平均:35.9%)。类似的显著提升在不同模型(Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B)、RL算法(GRPO和PPO)以及不同数学样本中均有体现(其中许多样本作为单一训练样本使用时,在MATH500上带来了约30%或更高的提升)。此外,我们在1-shot RLVR过程中观察到了一些有趣现象,包括跨领域泛化、自我反思频率的增加,以及训练准确率饱和后测试性能的持续提升,我们称之为“饱和后泛化”。进一步,我们验证了1-shot RLVR的有效性主要源于策略梯度损失,从而将其与“顿悟”现象区分开来。我们还展示了在1-shot RLVR训练中促进探索(例如,通过添加适当系数的熵损失)的关键作用。作为额外发现,我们观察到仅应用熵损失而不依赖任何结果奖励,也能显著提升Qwen2.5-Math-1.5B在MATH500上的表现,提升幅度达27.4%。这些发现可为未来RLVR数据效率的研究提供启示,并鼓励重新审视RLVR领域的最新进展及其内在机制。我们的代码、模型和数据已在https://github.com/ypwang61/One-Shot-RLVR开源。
衡量进展是推动任何科学领域发展的基石。随着基准测试日益占据核心地位,它们也更容易受到扭曲。Chatbot Arena已成为评估最强大AI系统的首选排行榜。然而,在本研究中,我们揭示了一系列导致竞技场失真的系统性问题。我们发现,未公开的私下测试实践使少数供应商受益,他们能够在公开发布前测试多个版本,并在需要时撤回评分。我们证实,这些供应商选择最佳评分的能力,由于选择性披露性能结果,导致了Arena评分的偏差。极端情况下,我们识别出Meta在Llama-4发布前测试的27个私有LLM变体。同时,我们证实,专有的闭源模型在Arena中被抽样(对战次数)的频率更高,且相较于开源和开放权重替代品,被移除的模型更少。这两项政策长期导致了巨大的数据获取不对称性。例如,谷歌和OpenAI分别估计获得了Arena中19.2%和20.4%的数据,而83个开放权重模型合计仅获得了约29.7%的总数据。我们展示,获取Chatbot Arena数据能带来显著优势;根据我们的保守估计,即使有限的额外数据也能在Arena分布上实现高达112%的相对性能提升。这些动态共同导致了模型过度适应Arena特定环境,而非提升整体模型质量。Arena的建立离不开组织者和维护这一宝贵评估平台的开放社区的辛勤努力。我们提出可操作的建议,旨在改革Chatbot Arena的评估框架,推动该领域实现更公平、透明的基准测试。
检索增强生成(RAG)在通过结合与查询相关的外部知识来提升模型回答的事实准确性方面展现了显著潜力。然而,现有的大多数RAG方法仅限于纯文本语料库,尽管近期研究已将其扩展至图像和视频等其他模态,但这些方法通常仅针对单一模态的特定语料库进行操作。相比之下,现实世界中的查询所需的知识类型千差万别,单一类型的知识源难以全面应对。为此,我们提出了UniversalRAG,一种新颖的RAG框架,旨在从具有多样模态和粒度的异构知识源中检索并整合知识。具体而言,基于观察到将所有模态强制纳入源自单一组合语料库的统一表示空间会导致模态鸿沟,即检索倾向于偏向与查询相同模态的项目,我们提出了一种模态感知路由机制,该机制能动态识别最合适的模态特定语料库,并在其中执行针对性检索。此外,超越模态层面,我们将每种模态组织成多个粒度级别,从而能够根据查询的复杂性和范围进行精细化的检索。我们在涵盖多种模态的8个基准测试上验证了UniversalRAG,证明了其相较于模态特定及统一基线方法的优越性。
我们推出ReasonIR-8B,这是首个专为通用推理任务训练的检索模型。现有检索器在推理任务上的提升有限,部分原因在于现有训练数据集多集中于简短的事实性查询,这些查询与直接回答它们的文档紧密相关。我们开发了一种合成数据生成流程,该流程为每篇文档创建一个具有挑战性且相关的查询,同时生成一个看似相关但实际无用的困难负例。通过在合成数据与现有公开数据的混合体上进行训练,ReasonIR-8B在广泛使用的推理密集型信息检索(IR)基准BRIGHT上,无需重排器时达到了29.9 nDCG@10的新纪录,使用重排器后提升至36.9 nDCG@10。应用于RAG任务时,ReasonIR-8B相较于闭卷基线,在MMLU和GPQA上的表现分别提升了6.4%和22.6%,超越了其他检索器和搜索引擎。此外,ReasonIR-8B在测试时计算效率更高:在BRIGHT上,随着查询改写得更长且信息更丰富,其性能持续提升;与LLM重排器结合使用时,仍优于其他检索器。我们的训练方案具有通用性,可轻松扩展至未来的LLM;为此,我们开源了代码、数据及模型。
基于奖励的大语言模型(LLM)对齐方法面临两大关键局限:一是易受奖励黑客攻击,即模型利用奖励信号中的漏洞;二是当LLM被用作奖励模型时,依赖于脆弱且劳动密集型的提示工程。我们提出了元策略优化(Meta Policy Optimization, MPO)框架,通过整合一个元奖励模型来动态调整训练过程中奖励模型的提示,从而应对这些挑战。在MPO中,元奖励模型监控不断变化的训练上下文,并持续调整奖励模型的提示,以保持高度对齐,提供一种能抵抗策略利用的自适应奖励信号。这种元学习方法促进了更稳定的策略优化,并大幅减少了对人工设计奖励提示的需求。其性能与经过大量手工调整奖励提示的模型相当甚至更优。此外,我们展示了MPO在问答和数学推理等多样化任务中保持有效性,无需专门设计的奖励机制。超越标准的RLAIF,MPO的元学习框架易于扩展至更高层次的对齐框架。总体而言,该方法解决了基于奖励的LLM强化学习对齐中的理论与实践难题,为更健壮和适应性强的对齐策略铺平了道路。代码与模型将公开分享。
本文提出了一种有效的方法,用于学习新颖的4D具身世界模型,这些模型能够预测3D场景在具身代理动作影响下的动态演变,同时确保空间和时间的一致性。我们建议通过训练RGB-DN(RGB、深度和法线)视频来学习4D世界模型。这种方法不仅超越了传统的2D模型,将详细的形状、配置和时间变化纳入预测之中,还使我们能够有效地学习具身代理的精确逆动力学模型。具体而言,我们首先利用现成模型扩展现有的机器人操作视频数据集,添加深度和法线信息。接着,我们在这个标注数据集上微调视频生成模型,该模型联合预测每一帧的RGB-DN(RGB、深度和法线)。然后,我们提出了一种算法,直接将生成的RGB、深度和法线视频转换为高质量的4D世界场景。我们的方法确保了从具身场景中预测的4D场景在时间和空间上的连贯性,支持具身环境中的新视角合成,并促进了策略学习,其性能显著优于基于先前视频世界模型的方法。
基于指令的图像编辑技术通过自然语言提示实现了强大的图像修改能力,然而现有方法在精度与效率之间面临权衡。微调方法需要大量计算资源和数据集,而免训练技术则在指令理解和编辑质量上存在不足。我们通过利用大规模扩散变换器(DiT)增强的生成能力和固有的上下文感知能力,解决了这一困境。我们的解决方案提出了三项创新:(1)一种上下文内编辑框架,采用上下文提示实现零样本指令遵循,避免结构改动;(2)一种LoRA-MoE混合调优策略,通过高效适应和动态专家路由增强灵活性,无需大规模重新训练;(3)一种基于视觉语言模型(VLMs)的早期过滤推理时间缩放方法,提前选择更优的初始噪声,提升编辑质量。广泛的评估表明,我们的方法在仅需0.5%训练数据和1%可训练参数的情况下,超越了现有最先进技术。这项工作确立了一种新范式,实现了高精度且高效的指令引导编辑。代码和演示可在https://river-zhang.github.io/ICEdit-gh-pages/获取。
大型语言模型(LLMs)在预训练阶段接触受版权保护材料,引发了部署后可能无意间侵犯版权的担忧。这推动了“版权移除”方法的发展,即旨在防止模型生成与受版权保护内容高度相似的后训练策略。尽管现有的缓解措施对平均风险有一定效果,但我们发现它们忽视了最坏情况下的版权风险,这些风险体现在模型可能生成来自受版权来源的长篇逐字引用。为此,我们提出了BloomScrub,一种极其简单却极为有效的推理时方法,它提供了认证的版权移除功能。该方法通过反复交织引用检测与重写技术,来转换潜在的侵权片段。借助高效的数据草图(布隆过滤器),我们的方法能够对大规模现实世界语料库进行可扩展的版权筛查。当无法移除超过长度阈值的引用时,系统可选择不回应,从而确保风险降低。实验结果表明,BloomScrub有效降低了侵权风险,保持了实用性,并通过自适应弃权机制适应了不同严格程度的执行要求。我们的研究结果表明,轻量级的推理时方法在版权预防方面具有出人意料的效力。
我们提出了X-Fusion框架,该框架扩展了预训练大语言模型(LLMs)以处理多模态任务,同时保持其语言能力。X-Fusion采用双塔设计,配备模态特定权重,冻结LLM参数的同时整合视觉特定信息,用于理解和生成任务。实验表明,X-Fusion在图像到文本和文本到图像任务上均持续优于其他架构。我们发现,融入侧重于理解的数据能提升生成质量,减少图像数据噪声可增强整体性能,而特征对齐能加速小模型的收敛,但对大模型影响甚微。这些发现为构建高效统一的多模态模型提供了宝贵洞见。
大型多模态模型(如GPT-4、Gemini、Chameleon)已发展成为拥有数百万用户的强大工具。然而,它们仍属于通用模型,缺乏对特定用户概念的个性化认知。先前的研究已探索了文本生成的个性化方法,但这些方法如何适应图像生成等新模态仍不明确。本文中,我们提出了Yo'Chameleon,这是首次尝试研究大型多模态模型个性化的工作。给定3-5张特定概念的图像,Yo'Chameleon利用软提示调优嵌入主题特定信息,以(i)回答关于该主题的问题,并(ii)在新情境下重现像素级细节,生成该主题的图像。Yo'Chameleon通过(i)一种自提示优化机制来平衡跨多模态的性能,以及(ii)一种“软正例”图像生成方法,在少样本设置下提升图像质量。
训练大型语言模型(LLMs)作为交互式代理面临独特挑战,包括长期决策制定与随机环境反馈的交互。尽管强化学习(RL)在静态任务中取得了进展,但多轮代理RL训练仍待深入探索。我们提出了StarPO(状态-思考-动作-奖励策略优化),一个面向轨迹级代理RL的通用框架,并引入了RAGEN,一个用于训练和评估LLM代理的模块化系统。我们在三个典型环境中的研究揭示了三个核心发现。首先,我们的代理RL训练呈现出一种称为“回声陷阱”的重复模式,其中奖励方差陡增和梯度尖峰;我们通过StarPO-S,一个包含轨迹过滤、批评器整合和解耦裁剪的稳定变体来解决这一问题。其次,我们发现RL展开的塑造将受益于多样化的初始状态、中等交互粒度以及更频繁的采样。第三,我们证明,在没有细粒度、推理感知的奖励信号的情况下,代理的推理难以通过多轮RL涌现,它们可能表现出浅层策略或虚构的思维。代码和环境可在https://github.com/RAGEN-AI/RAGEN获取。
多模态沉浸式空间戏剧生成致力于基于多模态提示,创造具有戏剧性韵律的连续多说话者双耳语音,其潜在应用包括增强现实(AR)、虚拟现实(VR)等领域。该任务需同时依据多模态输入建模空间信息与戏剧性韵律,数据采集成本高昂。据我们所知,本研究是首次尝试应对这些挑战。我们构建了MRSDrama,首个多模态录制的空间戏剧数据集,包含双耳戏剧音频、剧本、视频、几何姿态及文本提示。随后,我们提出了ISDrama,首个通过多模态提示的沉浸式空间戏剧生成模型。ISDrama主要由以下组件构成:1)基于对比学习的多模态姿态编码器,考虑移动说话者引起的多普勒效应,从多模态提示中提取统一姿态信息;2)沉浸式戏剧Transformer,一种基于流的Mamba-Transformer模型,通过引入Drama-MOE选择合适专家以增强韵律与姿态控制,生成高质量戏剧。我们还设计了一种上下文一致的无分类器引导策略,以连贯生成完整戏剧。实验结果表明,ISDrama在客观与主观指标上均优于基线模型。演示与数据集可访问https://aaronz345.github.io/ISDramaDemo。
检索增强生成(RAG)系统在多跳问答(MHQA)任务中面临显著挑战,其中复杂查询需要跨多个文档片段综合信息。现有方法通常依赖于基于大语言模型(LLM)的迭代式查询重写与路由,导致因重复调用LLM和多阶段处理而产生高计算成本。为应对这些局限,我们提出了TreeHop,一种无需LLM参与查询优化的嵌入级框架。TreeHop通过融合先前查询与检索文档的语义信息,动态更新查询嵌入,仅通过嵌入空间操作即可实现迭代检索。该方法将传统的“检索-重写-向量化-再检索”循环简化为“检索-嵌入-再检索”流程,大幅降低了计算开销。此外,引入基于规则的停止准则以进一步剪枝冗余检索,在效率与召回率之间取得平衡。实验结果表明,TreeHop在三个开放域MHQA数据集上媲美先进的RAG方法,仅以5%-0.4%的模型参数量实现了相当的性能,并将查询延迟较并行方法减少了约99%。这使得TreeHop成为一系列知识密集型应用中更快、更具成本效益的部署方案。为便于复现,代码与数据已公开于:https://github.com/allen-li1231/TreeHop。
当前,基于人类反馈的强化学习(RLHF)流程在大型语言模型(LLM)对齐任务中,通常为整个序列分配标量奖励,并以最终令牌作为整个序列质量的替代指标。然而,这种做法导致反馈稀疏且令牌级别的信用分配欠佳。在本研究中,我们将奖励塑造视为一个专注于令牌级别信用分配的优化问题。我们提出了一种奖励塑造函数,利用SHAP和LIME等可解释性方法,从奖励模型中估计每个令牌的奖励。为了学习这一塑造函数的参数,我们采用了一个双层优化框架,该框架结合了贝叶斯优化和策略训练,以应对令牌奖励估计中的噪声。实验结果表明,实现更好的令牌级别奖励分配平衡,能够在下游任务上超越基线表现,并在训练过程中更快找到最优策略。此外,我们从理论上证明,作为特征加性归因函数的可解释性方法,能够保持与原始奖励相同的最优策略。
法律从业者,尤其是初入职场者,常面临复杂且高风险的挑战,这些任务需要具备适应性强、情境敏感的推理能力。尽管人工智能在辅助法律工作方面展现出潜力,但当前的数据集和模型多局限于孤立的子任务,未能涵盖实际执业中所需的端到端决策过程。为填补这一空白,我们推出了LawFlow,这是一个基于真实商业实体设立场景、由训练有素的法律学生完成的完整端到端法律工作流程数据集。与以往专注于输入输出对或线性思维链的数据集不同,LawFlow捕捉了动态、模块化及迭代的推理过程,反映了法律实践中存在的模糊性、修订需求及客户适应性策略。通过LawFlow,我们对比了人类与大型语言模型(LLM)生成的工作流程,揭示了二者在结构、推理灵活性及计划执行上的系统性差异。人类工作流程倾向于模块化与适应性,而LLM工作流程则更为序列化、详尽且对下游影响不够敏感。我们的研究还表明,法律专业人士更倾向于让AI承担支持性角色,如头脑风暴、识别盲点及提出替代方案,而非执行复杂的端到端工作流程。基于这些发现,我们提出了一套设计建议,这些建议根植于实证观察,旨在通过混合规划、适应性执行及决策点支持,使AI辅助与人类追求清晰、完整、创意及效率的目标相契合。我们的成果既凸显了LLM在支持复杂法律工作流程上的现有局限,也为开发更具协作性、推理意识的法律AI系统指明了方向。所有数据与代码均可在我们的项目页面(https://minnesotanlp.github.io/LawFlow-website/)获取。
近期,说话头生成技术(THG)通过扩散模型在唇形同步和视觉质量方面取得了显著进展;然而,现有方法在生成情感丰富的肖像同时保持说话者身份方面仍面临挑战。我们识别出当前情感说话头生成中的三个关键局限:音频固有情感线索利用不足、情感表示中的身份泄露,以及情感相关性的孤立学习。为应对这些挑战,我们提出了一个名为DICE-Talk的新框架,其核心理念是解耦身份与情感,并协同具有相似特征的情感。首先,我们开发了一个解耦情感嵌入器,通过跨模态注意力联合建模音视频情感线索,将情感表示为与身份无关的高斯分布。其次,我们引入了一个相关性增强的情感条件模块,配备可学习的情感银行,通过向量量化和基于注意力的特征聚合显式捕捉情感间关系。第三,我们设计了一个情感判别目标,通过潜在空间分类在扩散过程中强制情感一致性。在MEAD和HDTF数据集上的大量实验证明了我们方法的优越性,在情感准确性上超越现有最先进方法,同时保持竞争力的唇形同步性能。定性结果和用户研究进一步证实了我们的方法能够生成保留身份的肖像,这些肖像具有丰富且相互关联的情感表达,并能自然地适应未见过的身份。
链式思维提示法在提升大型语言模型的推理能力方面已展现出显著成效。本研究探讨了如何利用这些增强的推理能力,来提升大型语言模型在非纯粹推理任务中的鲁棒性。具体而言,我们展示了一种名为“防御性思维链”的简单方法,通过提供少量包含结构化防御性推理的示例,使得多种大型语言模型在面对参考信息被污染时表现出显著增强的鲁棒性。实验结果表明,该方法带来的改进令人瞩目,尤其是考虑到其简洁性与广泛适用性。例如,在自然问答任务中,当提供的10个参考信息中有1个受到提示注入攻击污染时,采用标准提示法的GPT-4o准确率从60%骤降至3%。相比之下,采用防御性思维链提示法的GPT-4o则保持了50%的准确率。
我们研究了强化学习(RL)在自动驾驶特权规划中的应用。目前该任务的最先进方法基于规则,但这些方法难以应对长尾问题。相比之下,RL具有可扩展性,且不会像模仿学习那样出现误差累积。当代用于驾驶的RL方法采用复杂的复合奖励,即多个单独奖励的叠加,例如进度、位置或方向奖励。我们发现,当增加小批量大小时,PPO无法优化这些奖励的流行版本,这限制了这些方法的可扩展性。为此,我们提出了一种新的奖励设计,主要基于优化一个直观的奖励项:路线完成度。违规行为通过终止回合或乘法减少路线完成度来惩罚。我们发现,使用我们设计的简单奖励进行训练时,PPO在更高的小批量大小下表现良好,甚至提升了性能。通过大规模小批量训练,能够利用分布式数据并行实现高效扩展。我们在CARLA中扩展PPO至3亿样本,在nuPlan中扩展至5亿样本,仅使用单个8-GPU节点。所得模型在CARLA longest6 v2基准测试中达到64 DS,大幅领先于采用更复杂奖励的其他RL方法。该方法仅需对CARLA中的使用进行最小调整,便成为nuPlan上最佳的学习型方法。在Val14基准测试中,非反应性交通得分为91.3,反应性交通得分为90.6,同时比先前工作快一个数量级。
本综述系统分析了视觉-语言模型(VLMs)在三维物体检测领域的全面研究进展,这一领域正处于三维视觉与多模态人工智能的交叉前沿。通过审视超过100篇研究论文,我们首次提供了专门针对视觉-语言模型在三维物体检测中的系统性分析。首先,我们概述了视觉-语言模型在三维物体检测中面临的独特挑战,特别是在空间推理和数据复杂性方面与二维检测的区别。传统方法如点云和体素网格被与现代视觉-语言框架如CLIP和三维大语言模型(3D LLMs)进行对比,后者支持开放词汇检测和零样本泛化。我们回顾了关键架构、预训练策略以及提示工程方法,这些方法通过文本与三维特征的对齐,有效实现了基于视觉-语言模型的三维物体检测。通过可视化示例和评估基准的讨论,展示了其性能与行为特征。最后,我们指出了当前面临的挑战,如三维-语言数据集的局限性和计算需求,并提出了推动视觉-语言模型在三维物体检测中发展的未来研究方向。>物体检测,视觉-语言模型,智能体,VLMs,LLMs,人工智能