每日精选AI研究论文及翻译
推理是智能的核心,它塑造了决策、得出结论以及跨领域泛化的能力。在人工智能领域,随着系统越来越多地在开放、不确定和多模态环境中运行,推理成为实现稳健和自适应行为的关键。大型多模态推理模型(LMRMs)作为一种有前景的范式应运而生,它整合了文本、图像、音频和视频等多种模态,以支持复杂的推理能力,并致力于实现全面的感知、精确的理解和深度的推理。随着研究的深入,多模态推理已从模块化、感知驱动的流程迅速演变为统一、以语言为中心的框架,这些框架提供了更加连贯的跨模态理解。尽管指令微调和强化学习提升了模型的推理能力,但在全模态泛化、推理深度和代理行为方面仍存在重大挑战。针对这些问题,我们提出了一份全面且结构化的多模态推理研究综述,围绕一个四阶段的发展路线图组织,该路线图反映了该领域设计理念的转变和新兴能力。首先,我们回顾了基于任务特定模块的早期努力,其中推理隐含地嵌入在表示、对齐和融合的各个阶段。接着,我们探讨了将推理统一到多模态大语言模型(LLMs)中的最新方法,如多模态思维链(MCoT)和多模态强化学习等进展,使得推理链更加丰富和结构化。最后,基于OpenAI O3和O4-mini在挑战性基准测试和实验案例中的实证洞察,我们讨论了原生大型多模态推理模型(N-LMRMs)的概念方向,这些模型旨在支持复杂现实环境中可扩展、代理性和自适应的推理与规划。
我们提出了Flow-GRPO,这是首个将在线强化学习(RL)融入流匹配模型的方法。我们的方法采用了两大关键策略:(1)通过ODE到SDE的转换,将确定性的常微分方程(ODE)转化为等效的随机微分方程(SDE),该方程在所有时间步上匹配原模型的边际分布,从而为RL探索提供统计采样;(2)去噪缩减策略,在保持原始推理时间步数的同时减少训练中的去噪步骤,显著提升了采样效率而不影响性能。实验表明,Flow-GRPO在多项文本到图像任务中均表现出色。对于复杂构图,经过RL调优的SD3.5模型在物体数量、空间关系及细粒度属性上几乎达到完美,将GenEval准确率从63%提升至95%。在视觉文本渲染方面,其准确率从59%跃升至92%,极大增强了文本生成能力。Flow-GRPO还在人类偏好对齐上取得了显著进展。值得注意的是,几乎没有出现奖励作弊现象,即奖励的提升并未以图像质量或多样性的下降为代价,二者在我们的实验中均保持稳定。
我们推出了LegoGPT,这是首个能够根据文本提示生成物理稳定的乐高积木模型的方法。为实现这一目标,我们构建了一个大规模、物理稳定的乐高设计数据集,并配以相应的描述文本,进而训练了一个自回归大型语言模型,通过下一令牌预测来推断应添加的下一个积木。为了提升生成设计的稳定性,我们在自回归推理过程中采用了高效的合法性检查与物理感知回滚机制,利用物理定律和组装约束条件剔除不可行的令牌预测。实验表明,LegoGPT能够生成稳定、多样且美观的乐高设计,这些设计与输入文本提示高度契合。此外,我们还开发了一种基于文本的乐高纹理生成方法,用于创建带有颜色和纹理的设计。我们展示了这些设计不仅可由人工手动组装,还能通过机械臂自动完成。同时,我们公开了新的数据集StableText2Lego,其中包含超过47,000个乐高结构,对应28,000多个独特的3D物体,并附有详细描述,以及我们的代码和模型,项目网站为:https://avalovelace1.github.io/LegoGPT/。
评估大型语言模型(LLM)对人类的理解程度,而非仅仅对文本的理解,仍是一个开放性的挑战。为弥合这一差距,我们引入了“感知智能体作为评判者”(SAGE),这是一个自动化评估框架,用于衡量LLM的高阶社会认知能力。SAGE实例化了一个感知智能体,该智能体在交互过程中模拟人类情感变化和内心思维,从而在多轮对话中对被测试模型进行更为真实的评估。在每一轮对话中,智能体都会推理:(i) 其情感如何变化,(ii) 其感受如何,以及(iii) 应如何回应,由此生成一条数值化的情感轨迹和可解释的内心思维。在100个支持性对话场景中的实验表明,最终的感知情感得分与巴雷特-伦纳德关系量表(BLRI)评分及话语层面的共情指标高度相关,验证了其心理真实性。我们还构建了一个公开的感知排行榜,涵盖了18个商业和开源模型,揭示了前沿系统(如GPT-4o-Latest、Gemini2.5-Pro)与早期基线之间存在的显著差距(高达4倍),这些差距在传统排行榜(如Arena)中并未体现。因此,SAGE为追踪真正具备共情能力和社交娴熟的语言智能体的进展,提供了一个原则性强、可扩展且可解释的工具。
大型推理模型(LRMs)通过生成扩展的思维链(CoT)在复杂任务上取得了显著进展。然而,其不受控制的输出长度在实际部署中带来了重大挑战,特别是在推理时对令牌数量、延迟或计算资源的严格限制下。我们提出了弹性推理(Elastic Reasoning),这是一种新颖的可扩展思维链框架,明确将推理分为两个阶段——思考阶段和解答阶段,并各自独立分配预算。在测试时,弹性推理优先保证解答片段的完整性,在资源紧张的情况下显著提高了可靠性。为了训练出能够适应思考过程被截断的模型,我们引入了一种轻量级的预算约束展开策略,并将其整合到GRPO中,该策略教导模型在思考过程被中断时自适应地进行推理,并能有效泛化到未见过的预算约束,无需额外训练。在数学(AIME、MATH500)和编程(LiveCodeBench、Codeforces)基准测试中的实证结果表明,弹性推理在严格的预算约束下表现稳健,同时训练成本显著低于基线方法。值得注意的是,即使在无约束环境下,我们的方法也能生成更简洁高效的推理。弹性推理为大规模可控推理这一紧迫挑战提供了一个原则性和实用性的解决方案。
三维场景生成旨在为沉浸式媒体、机器人技术、自动驾驶以及具身智能等应用合成具有空间结构、语义意义且逼真的环境。早期基于程序规则的方法虽具备可扩展性,但多样性受限。近年来,深度生成模型(如GANs、扩散模型)与三维表示技术(如NeRF、3D高斯)的进步,使得学习真实世界场景分布成为可能,从而提升了生成结果的逼真度、多样性及视角一致性。特别是扩散模型,通过将生成问题重构为图像或视频合成任务,成功架起了三维场景生成与照片级真实感之间的桥梁。本综述系统梳理了当前最先进的方法,将其归纳为四大范式:程序化生成、基于神经网络的3D生成、基于图像的生成以及基于视频的生成。我们深入分析了这些方法的技术基础、权衡取舍及代表性成果,并回顾了常用的数据集、评估协议及下游应用。最后,我们探讨了生成能力、三维表示、数据与标注、评估等方面的关键挑战,并展望了包括更高逼真度、物理感知与交互式生成、以及统一感知-生成模型在内的未来发展方向。本综述不仅梳理了三维场景生成的最新进展,还强调了生成式AI、三维视觉与具身智能交叉领域的潜在研究方向。为追踪最新动态,我们维护了一个持续更新的项目页面:https://github.com/hzxie/Awesome-3D-Scene-Generation。
对比语言-图像预训练(CLIP)在多模态任务中表现出色,例如图像-文本检索和零样本分类,但由于其专注于粗粒度的简短描述,在细粒度理解方面存在局限。为解决这一问题,我们提出了细粒度CLIP(FG-CLIP),通过三项关键创新提升细粒度理解能力。首先,我们利用大规模多模态模型生成了16亿对长描述-图像对,以捕捉全局层面的语义细节。其次,构建了一个包含1200万张图像和4000万个与详细描述对齐的区域特定边界框的高质量数据集,确保精确且上下文丰富的表示。第三,引入了1000万个困难的细粒度负样本,以增强模型区分细微语义差异的能力。针对这些数据,我们精心设计了相应的训练方法。大量实验表明,FG-CLIP在多种下游任务中均超越了原始CLIP及其他最先进方法,包括细粒度理解、开放词汇目标检测、图像-文本检索以及通用多模态基准测试。这些结果凸显了FG-CLIP在捕捉图像细部细节及提升整体模型性能方面的有效性。相关数据、代码和模型可在https://github.com/360CVGroup/FG-CLIP获取。
近期专有模型(如o3)已开始展现出强大的多模态推理能力。然而,现有的大多数开源研究仍集中于训练仅处理文本的推理模型,其评估也主要局限于数学和通用领域任务。因此,如何有效扩展推理能力至文本输入和通用领域之外,仍是一个未解之谜。本文探讨了一个基础研究问题:推理能力是否可跨模态和领域泛化?我们的研究结果给出了肯定的答案:基于通用领域文本的后训练能够实现这种强大的泛化推理能力。基于这一发现,我们提出了X-Reasoner,这是一个仅通过通用领域文本进行后训练的视觉-语言模型,旨在实现泛化推理。我们采用了两阶段方法:首先进行带有蒸馏长链思维的有监督微调,随后通过可验证奖励进行强化学习。实验表明,X-Reasoner成功地将推理能力迁移至多模态及跨域场景,在多种通用和医疗基准测试中,超越了使用领域内和多模态数据训练的最先进模型(见图1)。此外,我们发现,通过在特定领域的纯文本数据上持续训练,X-Reasoner在专业领域的表现可得到进一步提升。基于此,我们推出了X-Reasoner-Med,这是一个医疗专用版本,在众多纯文本和多模态医疗基准测试中创下了新的最高记录。
我们提出了StreamBridge,一个简洁而高效的框架,能够无缝地将离线视频大语言模型(Video-LLMs)转化为具备流式处理能力的模型。该框架解决了现有模型适应在线场景时的两大核心挑战:(1)多轮实时理解能力的局限,以及(2)主动响应机制的缺失。具体而言,StreamBridge整合了(1)结合轮次衰减压缩策略的记忆缓冲区,以支持长上下文的多轮交互,以及(2)一个解耦的轻量级激活模型,可轻松集成到现有Video-LLMs中,实现持续的主动响应。为了进一步支撑StreamBridge,我们构建了Stream-IT,一个专为流式视频理解设计的大规模数据集,其特点在于交错的视频-文本序列和多样化的指令格式。大量实验表明,StreamBridge显著提升了离线Video-LLMs在多种任务中的流式理解能力,甚至超越了如GPT-4o和Gemini 1.5 Pro等专有模型。同时,它在标准视频理解基准测试中也取得了具有竞争力或更优的表现。
我们提出了“语言引导下的真实3D场景物体放置”这一新颖任务。我们的模型接收一个3D场景的点云数据、一个3D资产以及一段大致描述该3D资产应放置位置的文本提示。此任务的核心在于寻找一个既符合提示又有效的3D资产放置位置。相较于3D场景中的其他语言引导定位任务(如接地任务),本任务面临特定挑战:其具有多解性,即存在多个有效解决方案,并且需要推理3D几何关系及空闲空间。我们通过提出新的基准和评估协议,正式开启了这一任务的研究。同时,我们引入了一个用于训练3D大语言模型(LLMs)的新数据集,以及首个作为非平凡基线的方法。我们相信,这一具有挑战性的任务及其新基准,有望成为评估和比较通用型3D大语言模型性能的基准测试套件之一。
当前用于微调大语言模型(LLM)推理器的强化学习(RL)方法,如GRPO或留一PPO,往往舍弃已学习的价值函数,转而依赖经验估计的回报。这种做法阻碍了测试时计算效率的提升,因为后者通常需要利用价值函数进行验证。在本研究中,我们提出了RL^V方法,它通过联合训练LLM作为推理器和生成验证器,利用RL生成的数据,为任何“无价值”RL方法增添验证能力,且不引入显著开销。实验表明,RL^V在并行采样下将MATH准确率提升了超过20%,并实现了相较于基础RL方法8至32倍的测试时计算效率提升。此外,RL^V在从易到难及跨领域任务上展现出强大的泛化能力。更为突出的是,当结合并行与顺序测试时计算进行联合扩展时,RL^V在长推理R1模型上实现了1.2至1.6倍的性能提升。
指令微调中的数据选择对于提升大语言模型(LLMs)性能及降低训练成本至关重要。然而,现有的自动化选择方法要么依赖于计算开销大的基于梯度的度量,要么依赖于人工设计的启发式规则,这些方法可能无法充分利用数据的内在属性。本文提出了一种新颖的无梯度方法——基于上下文学习的贡献度测量(ICon),该方法利用上下文学习(ICL)隐含的微调特性,无需梯度计算或人工指标设计即可衡量样本贡献。ICon为基于梯度的方法提供了一种计算高效的替代方案,并减少了启发式方法中固有的人类归纳偏差。ICon包含三个组成部分,通过评估ICL隐含学习下的性能变化来识别高贡献数据。在三个LLMs上跨越12个基准和5对评估集的大量实验验证了ICon的有效性。值得注意的是,在LLaMA3.1-8B上,使用ICon选取的15%数据训练的模型,其表现比使用完整数据集高出5.42个百分点,并超越广泛使用的选择方法的最佳性能2.06个百分点。我们进一步分析了ICon选取的高贡献样本,发现它们不仅任务多样,难度适中,而非仅仅是最难的任务。
大型语言模型的推理能力研究主要集中在英语领域,即便这些预训练模型本身是多语言的。本研究探讨了基于长链思维(CoTs)的英语推理微调在多大程度上能够跨语言泛化。首先,我们发现,针对以英语为中心的推理语言模型(RLMs)增加推理计算规模,能够提升包括低资源语言在内的多种语言的数学推理能力,其表现甚至超越规模两倍于它们的模型。其次,我们揭示出,尽管以英语为中心的RLMs的CoTs自然以英语为主,但它们在处理引用的非英语输入时,始终遵循“引用-思考”模式进行推理。第三,我们找到了一种有效策略来控制长链CoT推理的语言,并观察到模型在高资源语言中推理更优且效率更高。最后,我们注意到,在跨领域推理泛化方面表现欠佳,特别是从STEM领域到文化常识知识的迁移,即便在英语中也是如此。总体而言,我们展示了英语推理测试时扩展的跨语言泛化潜力,研究了其机制,并勾勒了其局限性。我们得出结论,实践者应让以英语为中心的RLMs在高资源语言中进行推理,同时还需进一步工作以提升低资源语言及跨领域上下文中的推理能力。
大语言模型(LLM)的遗忘机制在实际应用中至关重要,尤其是在需要高效移除某些用户私密、受版权保护或有害数据影响的情况下。然而,现有的以模型效用为中心的遗忘评估指标(基于模型效用)在现实场景中可能无法准确衡量遗忘程度,例如当(a)遗忘集与保留集内容语义相似,(b)从头在保留集上重新训练模型不切实际,和/或(c)模型所有者无需直接在LLM上执行遗忘操作即可提升遗忘指标时。本文首次提出了一种名为WaterDrum的数据中心化遗忘评估指标,该指标利用鲁棒的文本水印技术克服上述局限。同时,我们引入了一套新的LLM遗忘基准数据集,这些数据集包含不同相似程度的数据点,可用于通过WaterDrum严格评估遗忘算法。我们的代码可在https://github.com/lululu008/WaterDrum获取,新基准数据集发布于https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax。
思维链(CoT)要求大型语言模型(LLMs)在得出最终答案前生成中间步骤,已被证实能有效帮助LLMs解决复杂推理任务。然而,CoT的内在机制在很大程度上仍不明确。本文中,我们通过实证研究探讨了CoT标记在LLMs中于两项组合任务——多位数乘法与动态规划——上的作用。尽管CoT对于解决这些问题至关重要,但我们发现仅保留存储中间结果的标记即可达到相当的性能。此外,我们观察到以另一种潜在形式存储中间结果不会影响模型表现。我们还随机干预了CoT中的某些值,注意到后续CoT标记及最终答案会相应变化。这些发现表明,CoT标记可能类似于计算机程序中的变量,但存在诸如意外捷径及标记间计算复杂度限制等潜在缺陷。代码与数据可在https://github.com/solitaryzero/CoTs_are_Variables获取。
视觉-语言-动作(VLA)模型标志着人工智能领域的一次革命性进步,旨在将感知、自然语言理解及具身行动统一于单一的计算框架内。本基础性综述全面梳理了VLA模型的最新进展,系统性地围绕构建这一快速演变领域的五大主题支柱展开。我们首先确立了VLA系统的概念基础,追溯其从跨模态学习架构到紧密集成视觉-语言模型(VLMs)、动作规划器及分层控制器的通用智能体的演进历程。研究方法采用严格的文献综述框架,涵盖了过去三年内发表的80余个VLA模型。关键进展领域包括架构创新、参数高效训练策略及实时推理加速。我们探讨了人形机器人、自动驾驶汽车、医疗与工业机器人、精准农业及增强现实导航等多样化应用场景。综述进一步剖析了实时控制、多模态动作表示、系统可扩展性、对未见任务的泛化能力及伦理部署风险等主要挑战。基于最前沿研究,我们提出了针对性解决方案,如智能体AI适应、跨具身泛化及统一的神经符号规划。在展望性讨论中,我们勾勒了未来路线图,其中VLA模型、VLMs与智能体AI将汇聚,共同驱动社会对齐、自适应且通用的具身智能体。本工作为推进智能现实世界机器人及人工通用智能的发展提供了基础性参考。>视觉-语言-动作,智能体AI,AI智能体,视觉-语言模型
在机器人同步定位与地图构建(SLAM)及视觉定位等应用中,稳健且高效的局部特征匹配发挥着关键作用。尽管已取得显著进展,但在光照剧烈变化、低纹理区域或重复图案的场景中,提取出既稳健又具有区分性的视觉特征仍极具挑战。本文提出了一种名为LiftFeat的新型轻量级网络,通过聚合三维几何特征来提升原始描述符的鲁棒性。具体而言,我们首先采用预训练的单目深度估计模型生成伪表面法线标签,以此监督预测表面法线方向上的三维几何特征提取。随后,我们设计了一个三维几何感知的特征提升模块,将表面法线特征与原始二维描述符特征相融合。这种三维几何特征的整合,增强了二维特征描述在极端条件下的区分能力。在相对姿态估计、单应性估计及视觉定位任务上的大量实验结果表明,我们的LiftFeat超越了一些轻量级的先进方法。代码将发布于:https://github.com/lyp-deeplearning/LiftFeat。
语言模型与人类偏好的对齐依赖于成对偏好数据集。尽管有研究表明,在偏好学习中,策略内数据始终优于策略外数据,但也有研究指出,策略内数据的优势可能因任务而异,这凸显了系统探索两者相互作用的必要性。 在本研究中,我们揭示了策略内与策略外数据在偏好优化中具有互补优势:策略内数据在数学和编程等推理任务上表现尤为出色,而策略外数据则在创意写作和个性化推荐等开放式任务中更为有效。基于这些发现,我们提出了SIMPLEMIX方法,通过简单混合这两种数据源,结合策略内与策略外偏好学习的互补优势。我们在多种任务和基准测试中的实证结果表明,SIMPLEMIX显著提升了语言模型的对齐效果。具体而言,在Alpaca Eval 2.0上,SIMPLEMIX相较于策略内DPO和策略外DPO平均提升了6.03%。此外,它比之前更为复杂的策略内与策略外数据结合方法,如HyPO和DPO-Mix-P,平均高出3.05%。
随着大型语言模型(LLMs)逐步进化为工具使用型智能体,实时浏览网页的能力已成为衡量其推理与检索能力的关键指标。现有基准测试如BrowseComp主要聚焦于英语,却忽视了其他主要信息生态系统——尤其是中文——在语言、基础设施及审查制度等方面的复杂性。为填补这一空白,我们推出了BrowseComp-ZH,这是一个专为全面评估LLM智能体在中文网络环境下的表现而设计的高难度基准测试。BrowseComp-ZH包含289个跨11个不同领域的多跳问题,每个问题均逆向工程自简短、客观且易于验证的答案(如日期、数字或专有名词)。我们采用两阶段质量控制流程,力求问题的高难度与答案的唯一性。在BrowseComp-ZH上,我们对超过20个顶尖语言模型及代理搜索系统进行了基准测试。尽管这些模型在对话与检索方面表现出色,但大多数模型表现严重不佳:大量模型的准确率低于10%,仅有少数超过20%。即便是表现最佳的系统——OpenAI的DeepResearch,也仅达到42.9%的准确率。这些结果凸显了BrowseComp-ZH的极大挑战性,成功不仅需要高效的检索策略,还需复杂的推理与信息整合能力——这些正是当前模型尚待提升的关键。我们的数据集、构建指南及基准测试结果已公开发布于https://github.com/PALIN2018/BrowseComp-ZH。