每日精选AI研究论文及翻译
大型语言模型(LLMs)通过结合长链思维强化学习,已展现出强大的数学推理能力。然而,由于仅依赖自然语言时缺乏明确的监督信号,它们在定理证明方面仍面临挑战。专用领域特定语言如Lean通过形式化验证提供清晰的监督,使得通过强化学习进行有效训练成为可能。在本研究中,我们提出了Seed-Prover,一种基于引理的全证明推理模型。Seed-Prover能够根据Lean的反馈、已证明的引理及自我总结,迭代优化其证明过程。为解决国际数学奥林匹克(IMO)级别的竞赛问题,我们设计了三种测试时推理策略,支持深度与广度兼备的推理。Seed-Prover成功证明了78.1%的形式化历史IMO问题,在MiniF2F上达到饱和,并在PutnamBench上取得超过50%的成绩,大幅超越了之前的最先进水平。针对Lean在几何支持上的不足,我们引入了几何推理引擎Seed-Geometry,其表现优于以往的形式化几何引擎。我们利用这两个系统参与了2025年IMO,并完整证明了六道题目中的五道。此研究标志着自动化数学推理领域的重大进展,展示了长链思维推理与形式化验证相结合的有效性。
随着多模态推理模型的发展,类似于《钢铁侠》中贾维斯的计算机使用代理(CUAs)正逐渐成为现实。图形用户界面(GUI)基础是CUAs执行实际动作的核心组件,类似于机器人技术中的机械控制,它直接决定了系统的成败。它决定了诸如点击和键入等动作,以及点击坐标等相关参数。当前端到端的基础模型在ScreenSpot-pro和UI-Vision等具有挑战性的基准测试中仍无法达到65%的准确率,表明它们远未达到部署准备状态。在本研究中,我们对基础模型的训练进行了实证研究,从数据收集到模型训练的细节进行了全面考察。最终,我们开发了Phi-Ground模型系列,在代理设置下,对于参数少于10B的模型,在所有五个基础基准测试中均实现了最先进的性能。在端到端模型设置中,我们的模型在ScreenSpot-pro和UI-Vision上分别以\textbf{43.2}和\textbf{27.2}的得分仍保持了SOTA结果。我们相信,本文讨论的各种细节,以及我们的成功与失败,不仅阐明了基础模型的构建,也将对其他感知任务有所裨益。项目主页:https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
语音对话模型(SDMs)近期因其能够直接生成语音回应用户的口语查询而备受关注。尽管其日益普及,但在全面理解其实际效果、特别是在模拟人类对话方面的研究仍存在空白。与基于文本的大型语言模型(LLMs)相比,后者得益于广泛的基准测试,而人类语音交互由于口语对话特有的复杂性,显得更为复杂。歧义性是一个挑战,它源于语义因素如一词多义,以及语音学特征如异形同音词、异音同形词和重音模式。此外,上下文依赖性,如省略、共指和多轮互动,进一步增加了人类对话动态的复杂性。为了阐明SDM发展的现状并应对这些挑战,本文提出了一个包含1,079个中英文实例的基准数据集。配合一个与人类判断高度一致的基于LLM的评估方法,该数据集为深入探索SDMs在解决这些实际问题中的表现提供了有力支持。
推荐系统作为人工智能最具影响力的应用之一,是连接用户、商家和平台的关键基础设施。然而,当前大多数工业系统仍严重依赖历史共现模式和日志拟合目标,即优化过去的用户交互而未能显式建模用户意图。这种日志拟合方法往往导致对狭窄历史偏好的过拟合,无法捕捉用户不断演变和潜在的兴趣。因此,它加剧了信息茧房和长尾现象,最终损害用户体验并威胁整个推荐生态系统的可持续性。 为应对这些挑战,我们重新思考了推荐系统的整体设计范式,提出了RecGPT这一将用户意图置于推荐流程核心的下一代框架。通过将大型语言模型(LLMs)整合到用户兴趣挖掘、物品检索和解释生成的关键阶段,RecGPT将日志拟合推荐转变为以意图为中心的过程。为了有效将通用LLMs大规模对齐到上述特定领域的推荐任务,RecGPT采用了一种多阶段训练范式,该范式集成了推理增强的预对齐和自训练进化,并由人机协作的评判系统指导。目前,RecGPT已在淘宝App上全面部署。在线实验表明,RecGPT在各方利益相关者中均实现了持续的性能提升:用户受益于内容多样性和满意度的增加,商家和平台获得了更大的曝光和转化率。这些全面的改进结果验证了LLM驱动的、以意图为中心的设计能够培育一个更可持续、互利共赢的推荐生态系统。
视觉-语言-动作(VLA)模型已成为一种流行的范式,用于学习能够遵循语言指令并泛化到新场景的机器人操作策略。近期研究开始探索将潜在动作——即两帧之间视觉变化的抽象表征——融入VLA预训练中。本文提出villa-X,一种新颖的视觉-语言-潜在动作(ViLLA)框架,该框架推进了潜在动作建模,以学习可泛化的机器人操作策略。我们的方法改进了潜在动作的学习方式及其融入VLA预训练的过程。这些创新共同使villa-X在包括SIMPLER和LIBERO在内的模拟环境中,以及在夹爪和灵巧手操作的两个真实机器人设置上,均取得了卓越性能。我们相信ViLLA范式具有重大潜力,且villa-X为未来研究奠定了坚实基础。
前馈式3D建模已成为实现快速高质量三维重建的一种有前景的方法。特别是直接生成显式三维表示,如3D高斯溅射,因其快速且高质量的渲染能力及广泛的应用场景而备受关注。然而,许多基于Transformer架构的先进方法面临严重的可扩展性问题,因为它们依赖于多输入视图间图像标记的完全注意力机制,随着视图数量或图像分辨率的增加,计算成本急剧上升。为了构建一个可扩展且高效的前馈式三维重建系统,我们提出了一种迭代式大型三维重建模型(iLRM),该模型通过迭代优化机制生成3D高斯表示,并遵循三大核心原则:(1)将场景表示与输入视图图像解耦,以实现紧凑的三维表示;(2)将完全注意力的多视图交互分解为两阶段注意力方案,以降低计算成本;(3)在每一层注入高分辨率信息,以实现高保真重建。在RE10K和DL3DV等广泛使用的数据集上的实验结果表明,iLRM在重建质量和速度上均优于现有方法。尤为突出的是,iLRM展现出卓越的可扩展性,在同等计算成本下,通过有效利用更多输入视图,显著提升了重建质量。
尽管强化学习(RL)在语言建模领域取得了显著成就,但其成功尚未完全转化为视觉运动智能体。RL模型面临的一个主要挑战是它们容易对特定任务或环境过拟合,从而阻碍了在不同场景下获得可泛化行为的能力。本文通过展示在Minecraft中经过RL微调的视觉运动智能体能够实现对新世界的零样本泛化,为这一挑战提供了初步解答。具体而言,我们探索了RL在增强3D世界中可泛化的空间推理与交互能力方面的潜力。针对多任务RL表示中的挑战,我们分析并确立了跨视图目标指定作为视觉运动策略的统一多任务目标空间。此外,为克服手动任务设计的重大瓶颈,我们提出了在高度可定制的Minecraft环境中进行自动化任务合成,以支持大规模多任务RL训练,并构建了一个高效的分布式RL框架来支撑这一过程。实验结果表明,RL显著提升了交互成功率达4倍,并实现了跨多样环境(包括现实世界场景)的空间推理零样本泛化。我们的发现凸显了在3D模拟环境中,尤其是那些适合大规模任务生成的环境中进行RL训练的巨大潜力,这对于显著推进视觉运动智能体的空间推理能力具有重要意义。
大型语言模型通过模拟的“助手”角色与用户互动。尽管助手通常被训练得乐于助人、无害且诚实,但有时也会偏离这些理想状态。本文中,我们识别了模型激活空间中的多个特质(如邪恶、谄媚及幻觉倾向)所对应的“角色向量”。我们证实,这些向量可用于监测助手在部署时性格的波动。随后,我们应用角色向量来预测并控制在训练过程中发生的性格转变。研究发现,微调后有意与无意的性格变化均与相关角色向量的偏移密切相关。这些偏移可通过事后干预得到缓解,或通过一种新的预防性引导方法从一开始就避免。此外,角色向量还能用于标记在数据集层面及单个样本层面可能导致不良性格变化的训练数据。我们提取角色向量的方法实现了自动化,且仅需给定自然语言描述,即可应用于任何感兴趣的性格特质。
我们提出了NeRF-GS,一个新颖的框架,它联合优化了神经辐射场(NeRF)与三维高斯溅射(3DGS)。该框架利用NeRF固有的连续空间表示,有效缓解了3DGS的若干局限,包括对高斯初始化的敏感性、空间感知能力有限以及高斯间关联性弱等问题,从而提升了其性能。在NeRF-GS中,我们重新审视了3DGS的设计,逐步将其空间特征与NeRF对齐,使得两种表示能够通过共享的三维空间信息在同一场景中进行优化。此外,我们通过优化隐式特征和高斯位置的残差向量,进一步处理了两种方法之间的形式差异,增强了3DGS的个性化能力。在基准数据集上的实验结果表明,NeRF-GS超越了现有方法,达到了最先进的性能。这一结果证实了NeRF与3DGS是互补而非竞争的关系,为结合3DGS与NeRF以实现高效三维场景表示的混合方法提供了新的见解。
多模态大语言模型(MLLMs)能够实现视觉-语言推理,但常常生成看似合理却事实错误或视觉上缺乏依据的输出,从而影响其可靠性。直接偏好优化(DPO)是一种通过将模型输出与人类偏好对齐来纠正幻觉的常见策略。现有的DPO策略通常将幻觉相关的偏好视为固定目标,在训练过程中依赖静态的监督信号。这种方法容易过度拟合偏好数据中的表面语言线索,导致分布僵化和虚假关联,从而损害与因果相关视觉信息的关联性。为克服这一局限,我们提出了TARS,一种基于令牌的自适应偏好策略,将DPO重新表述为一个最小-最大优化问题。TARS在语义约束下最大化令牌级分布变化以模拟对齐不确定性,同时在这些受控扰动下最小化预期偏好损失。这一联合目标在保持因果关联性的同时,减轻了对偏好模式的过度拟合,从而减少了多模态推理中的幻觉。我们在多个幻觉基准上评估了TARS,发现其表现始终强劲。仅使用4.8k个偏好样本且无需专家反馈,TARS将幻觉率从26.4%降至13.2%,并将认知值从2.5降至0.4。它在多个关键指标上超越了标准DPO,并与GPT-4o相当。
精准自动化理解农业任务,如病害识别,对于可持续作物生产至关重要。近期视觉-语言模型(VLMs)的进展,有望通过简便的文本交互促进人机互动,从而进一步拓展农业任务的应用范围。本文介绍AgroBench(农艺师AI基准),一个针对七个农业主题评估VLM模型的基准,涵盖农业工程的关键领域并与实际耕作相关。与近期其他农业VLM基准不同,AgroBench由农艺专家进行标注。我们的AgroBench覆盖了最前沿的类别范围,包括203种作物类别和682种病害类别,以全面评估VLM的能力。在AgroBench上的评估中,我们发现VLM在细粒度识别任务上仍有提升空间。特别是在杂草识别方面,多数开源VLM的表现近乎随机。凭借广泛的主题和专家标注的类别,我们分析了VLM所犯错误的类型,并为未来VLM的发展提出了潜在路径。我们的数据集和代码可在https://dahlian00.github.io/AgroBenchPage/ 获取。
自其引入以来,softmax注意力机制凭借其表达能力和在广泛任务中的可扩展性,已成为现代Transformer架构的核心支柱。然而,softmax注意力的主要缺陷在于其相对于序列长度的二次方内存需求和计算复杂度。通过替换softmax非线性,线性注意力及类似方法被提出,以规避softmax注意力的二次方瓶颈。尽管这些线性形式的注意力源自原始的softmax公式,它们在下游任务准确性方面通常表现欠佳。尽管对softmax非线性在查询和键内积上的强大直觉表明,相比其他非线性,它具备更优特性,但为何存在这种差异的问题仍未得到解答。本研究通过推导softmax注意力的递归形式,证明了线性注意力是softmax注意力的一个近似。利用这一形式,softmax注意力的每一部分都可以用递归神经网络(RNNs)的语言来描述。将softmax注意力描述为RNN,使得能够通过消融softmax注意力的各个组件来理解每部分的重要性及其相互作用方式。由此,我们的工作有助于解释为何softmax注意力比其替代方案更具表达力。
艺术风格分类在计算美学领域仍是一项艰巨挑战,这主要源于专家标注数据集的稀缺以及风格元素间错综复杂、往往非线性的相互作用。尽管近期的双教师自监督框架降低了对标注数据的依赖,但其线性投影层和局部聚焦难以建模全局构图上下文及复杂的风格特征交互。我们通过将传统的多层感知机(MLP)投影和预测头替换为Kolmogorov-Arnold网络(KANs),增强了双教师知识蒸馏框架以应对这些局限。该方法保留了来自两个教师网络的互补指导:一个侧重于局部纹理和笔触模式,另一个捕捉更广泛的风格层次结构,同时利用KANs基于样条的激活函数,以数学精度建模非线性特征关联。在WikiArt和Pandora18k数据集上的实验表明,我们的方法在Top-1准确率上超越了基础双教师架构。研究结果凸显了KANs在解构复杂风格流形中的重要性,相较于MLP投影,其带来了更好的线性探针准确率。
阿拉伯语因其复杂的形态结构、可选的变音符号以及现代标准阿拉伯语(MSA)与多种方言并存的特点,对自然语言处理(NLP)和信息检索(IR)构成了独特挑战。尽管阿拉伯语在全球的重要性日益增长,但在NLP研究和基准资源中仍显不足。本文提出了一种专为阿拉伯语设计的增强型密集段落检索(DPR)框架。该框架的核心是一种新颖的注意力相关度评分(ARS)机制,它通过自适应评分函数替代标准交互机制,更有效地建模问题与段落之间的语义相关性。我们的方法整合了预训练的阿拉伯语语言模型和架构优化,显著提升了检索性能,并在回答阿拉伯语问题时大幅提高了排序准确性。相关代码已公开于https://github.com/Bekhouche/APR{GitHub}。
数据以连续流的形式抵达我们的感官,从一个瞬间平滑地过渡到下一个瞬间。这些平滑的变换可被视为我们所处环境的连续对称性,定义了刺激随时间推移的等价关系。在机器学习中,那些尊重数据对称性的神经网络架构被称为等变网络,它们在泛化能力和样本效率方面具有可证明的优势。然而,迄今为止,等变性仅被考虑用于静态变换和前馈网络,这限制了其在序列模型(如循环神经网络RNNs)及相应的时间参数化序列变换中的应用。在本研究中,我们将等变网络理论扩展至“流”这一领域——即捕捉随时间自然变换的一参数李子群,如视觉运动。我们首先展示标准RNN通常不具备流等变性:对于移动的刺激,其隐藏状态未能以几何结构化的方式变换。随后,我们探讨了如何引入流等变性,并证明这些模型在训练速度、长度泛化及速度泛化方面显著优于非等变模型,无论是在下一步预测还是序列分类任务上。本研究旨在为构建尊重时间参数化对称性的序列模型迈出第一步,这些对称性支配着我们周围的世界。
随着隐私问题日益受到关注,旨在使机器学习模型能够“遗忘”特定训练数据的机器遗忘技术,正获得越来越多的重视。在现有方法中,基于影响力的遗忘因其无需重新训练即可估算单个训练样本对模型参数影响的能力,已成为一种重要方法。然而,该方法因需计算所有训练样本和参数上的海森矩阵及其逆矩阵,导致计算开销巨大,使其在大规模模型及频繁数据删除请求的场景中难以实际应用,这凸显了遗忘的难度。受认知科学中“记忆比遗忘更容易”这一观点的启发,本文建立了记忆(增量学习)与遗忘(机器遗忘)之间的理论联系。这一联系使得机器遗忘问题可以从增量学习的角度加以解决。与遗忘(机器遗忘)中耗时的海森矩阵计算不同,记忆(增量学习)通常依赖于更为高效的梯度优化,这支持了上述认知理论。基于这一联系,我们提出了从增量视角出发的高效机器遗忘算法——影响力近似遗忘(IAU)。大量实证评估表明,IAU在删除保证、遗忘效率与模型性能可比性之间实现了优越的平衡,并在多种数据集和模型架构上超越了现有最先进方法。我们的代码已发布于https://github.com/Lolo1222/IAU。