每日精选AI研究论文及翻译
超越人类认知局限是LLM训练中的一个关键前沿领域。诸如DeepResearch等专有代理系统已在BrowseComp等极其复杂的信息检索基准上展现出超人类能力,这一成就此前难以企及。我们认为,其成功关键在于开源模型所缺乏的一种高级推理模式:在浩瀚信息海洋中航行时,系统性地降低极端不确定性的能力。基于这一洞见,我们推出了WebSailor,一套完整的后训练方法论,旨在赋予模型这一关键能力。我们的方法通过结构化采样与信息遮蔽生成新颖的高不确定性任务,采用RFT冷启动,并引入高效的代理强化学习训练算法——复制采样策略优化(DUPO)。凭借这一集成流程,WebSailor在复杂信息检索任务中显著超越所有开源代理,与专有代理性能相当,缩小了能力差距。
从二维图像中恢复具有开放词汇场景理解的三维结构是一项基础而艰巨的任务。近期研究通过结合语言信息进行逐场景优化,已在此领域取得进展。然而,这些方法严重依赖校准的密集视角重建范式,在视角有限时,会遭受严重的渲染伪影和不可信的语义合成问题。本文提出了一种创新的生成框架——LangScene-X,旨在统一并生成三维一致的多模态信息,以支持重建与理解。得益于生成一致新观察的能力,我们能够仅从稀疏视角构建可泛化的三维语言嵌入场景。具体而言,我们首先训练了一个TriMap视频扩散模型,该模型通过渐进式知识整合,能够从稀疏输入生成外观(RGB)、几何(法线)和语义(分割图)。此外,我们提出了一种在大规模图像数据集上训练的语言量化压缩器(LQC),以高效编码语言嵌入,实现跨场景泛化而无需逐场景重新训练。最后,我们通过将语言信息对齐到三维场景表面,重建了语言表面场,从而支持开放式语言查询。在真实世界数据上的大量实验表明,LangScene-X在质量和泛化能力上均优于现有最先进方法。项目页面:https://liuff19.github.io/LangScene-X。
近期,多模态推理领域因文本链式思维(CoT)范式而取得显著进展,该范式让模型在语言内部进行推理。然而,这种以文本为中心的方法将视觉视为静态的初始背景,在丰富的感知数据与离散的符号思维之间形成了根本性的“语义鸿沟”。人类认知常常超越语言,将视觉作为动态的心理画板加以利用。如今,人工智能领域正经历着类似的演变,标志着从仅仅思考图像的模型向真正能够用图像思考的模型发生了根本性的范式转变。这一新兴范式的特征在于,模型将视觉信息作为其思维过程中的中间步骤,从而将视觉从被动输入转变为动态、可操控的认知工作空间。在本综述中,我们沿着认知自主性不断增强的轨迹,描绘了这一智能演化的历程,该历程跨越了三个关键阶段:从外部工具探索,到程序化操控,再到内在想象。为了构建这一快速发展的领域,我们的综述做出了四项关键贡献:(1)我们确立了“用图像思考”范式的基本原则及其三阶段框架;(2)我们对这一路线图各阶段的核心方法进行了全面回顾;(3)我们分析了评估基准与变革性应用的关键格局;(4)我们识别了重大挑战并勾勒了未来发展的光明方向。通过提供这一结构化概览,我们旨在为未来研究指明清晰路线,以推动更强大、更符合人类需求的多模态人工智能的发展。
尽管文本到图像扩散模型已取得显著进展,但在生成输出上实现精确的空间控制仍具挑战。ControlNet通过引入辅助条件模块应对此问题,而ControlNet++则进一步通过在最终去噪步骤中应用循环一致性损失来优化对齐效果。然而,这种方法忽略了中间生成阶段,限制了其有效性。我们提出了InnerControl,一种训练策略,旨在所有扩散步骤中强制执行空间一致性。我们的方法训练轻量级卷积探针,从每个去噪步骤的UNet中间特征重建输入控制信号(如边缘、深度)。这些探针即使从高度噪声的潜在空间中也能高效提取信号,为训练提供伪真实控制。通过在整个扩散过程中最小化预测条件与目标条件之间的差异,我们的对齐损失提升了控制保真度和生成质量。结合ControlNet++等成熟技术,InnerControl在多种条件方法(如边缘、深度)上实现了最先进的性能。
我们推出IntFold,一种可控的基础模型,适用于通用及特定生物分子结构预测。IntFold展现出与当前最先进的AlphaFold3相媲美的预测精度,同时采用了更优的定制注意力核。除标准结构预测外,IntFold通过使用独立适配器,可灵活预测变构状态、受限结构及结合亲和力。此外,我们引入了一种新颖的置信度头部来评估对接质量,为诸如抗体-抗原复合物等挑战性目标提供了更为细致的评估。最后,我们分享了在训练这一计算密集型模型过程中获得的洞见。
尽管奖励模型(RMs)在基于人类反馈的强化学习(RLHF)中扮演着关键角色,但当前最先进的开放奖励模型在大多数现有评估基准上表现不佳,未能捕捉到人类偏好中微妙而复杂的多样性。即便是那些融入了先进训练技术的方法,也未能带来显著的性能提升。我们推测,这种脆弱性主要源于偏好数据集的局限性,这些数据集往往范围狭窄、标签合成或缺乏严格的质量控制。为应对这些挑战,我们提出了一个包含4000万偏好对的大规模偏好数据集,命名为SynPref-40M。为了实现大规模数据整理,我们设计了一个人机协同的两阶段流程,充分利用了人类标注质量与AI可扩展性的互补优势。在这一流程中,人类提供经过验证的标注,而大型语言模型则基于人类指导进行自动整理。基于这一偏好混合数据训练,我们推出了Skywork-Reward-V2,这是一套包含从0.6B到8B参数的八种奖励模型,训练于从SynPref-40M中精心挑选的2600万偏好对子集。我们展示了Skywork-Reward-V2在多种能力上的广泛适用性,包括与人类偏好的一致性、客观正确性、安全性、对抗风格偏见的抵抗力以及最佳N选一扩展性,在七大奖励模型基准测试中均达到了业界领先水平。消融研究证实,我们方法的有效性不仅源于数据规模,还得益于高质量的数据整理。Skywork-Reward-V2系列标志着开放奖励模型领域的重大进展,揭示了现有偏好数据集的未开发潜力,并展示了人机协同整理如何能显著提升数据质量。
现实世界中的复杂信息检索需求要求跨多种来源进行深度推理与知识综合,而传统的检索增强生成(RAG)流程在此方面表现欠佳。当前基于推理的方法存在一个根本性局限:它们依赖单一模型同时处理高层规划与细节执行,导致推理效率低下且扩展性受限。本文提出HiRA,一种将战略规划与专业执行分离的层次化框架。该框架将复杂搜索任务分解为聚焦的子任务,为每个子任务配备具备外部工具与推理能力的领域特定代理,并通过结构化整合机制协调结果。这种分离避免了执行细节干扰高层推理,同时使系统能够针对不同类型的信息处理利用专业特长。在四个复杂、跨模态的深度搜索基准测试中,HiRA显著超越了最先进的RAG及基于代理的系统。我们的结果表明,在答案质量与系统效率上均有提升,凸显了在多层次信息寻求任务中解耦规划与执行的有效性。代码已发布于https://github.com/ignorejjj/HiRA。
近期研究表明,训练损失随模型规模和token数量呈幂律关系扩展,且实现计算最优模型需要同步扩展模型规模和token数量。然而,这些扩展定律假设数据供应无限,并主要适用于计算受限的场景。随着现代大型语言模型日益依赖海量的互联网规模数据集,它们处于计算受限的假设正变得不再成立。这一转变凸显了对优先考虑token效率的架构的需求。 在本研究中,我们探讨了2-单纯形Transformer的应用,该架构通过高效的Triton内核实现,将标准点积注意力推广至三线性函数。我们证明,2-单纯形Transformer相比标准Transformer具有更好的token效率:在固定token预算下,规模相近的模型在涉及数学、编程、推理和逻辑的任务上表现优于其点积注意力版本。我们通过展示2-单纯形注意力相较于点积注意力,在知识和推理任务的扩展定律中改变了指数,量化了这些提升。
推理对于大型语言模型(LLMs)而言仍是一项艰巨任务,尤其是在自动定理证明(ATP)这一逻辑约束严格的环境中,这归因于奖励稀疏及证明规模庞大。在诸如PutnamBench这类包含大学级别、需要复杂多步推理问题的基准测试中,这些挑战尤为突出。为此,我们引入了自生成目标条件马尔可夫决策过程(sG-MDPs),这一新框架允许代理根据不断演进的证明状态生成并追求其子目标。通过这种更为结构化的目标生成方式,问题变得更加适合搜索解决。随后,我们采用类似蒙特卡洛树搜索(MCTS)的算法来求解sG-MDP,并在Bourbaki(7B)系统中实现这一方法,该系统能够集成多个7B规模的LLMs进行子目标生成与策略合成。在PutnamBench上,Bourbaki(7B)成功解决了26个问题,以同等规模模型创下了新的技术领先记录。
同行评审是科学研究的基石,但随着出版物数量的激增,这一高度依赖专业知识的流程面临日益严峻的挑战。尽管大语言模型(LLMs)在多项科研任务中展现出潜力,其在协助同行评审,特别是在识别论文局限性方面的应用仍待深入探索。我们首先提出了一套针对科学研究,尤其是人工智能领域局限性的全面分类体系。基于这一分类,我们推出了LimitGen,这是首个旨在评估LLMs在提供早期反馈及补充人类同行评审能力方面的综合基准。该基准包含两个子集:LimitGen-Syn,一个通过高质量论文受控扰动精心构建的合成数据集;以及LimitGen-Human,一个真实由人类撰写的局限性案例集合。为了提升LLM系统识别局限性的能力,我们为其引入了文献检索功能,这对于将局限性识别建立在先前科学发现的基础上至关重要。我们的方法增强了LLM系统在科研论文中生成局限性的能力,使其能够提供更为具体和建设性的反馈。
与人类系统二思维相类似的推理时计算技术,近期在提升模型性能方面广受欢迎。然而,现有方法大多存在若干局限:它们或局限于特定模态(如仅适用于文本),或针对特定问题(如数学和编程等可验证领域),或需在无监督预训练基础上额外引入监督/训练(如验证器或可验证奖励)。本文探讨了一个核心问题:“能否推广这些系统二思维方法,开发出仅通过无监督学习就能学会思考的模型?”有趣的是,我们发现答案是肯定的,关键在于学习如何显式验证输入与候选预测之间的兼容性,并将预测问题重新表述为针对该验证器的优化问题。具体而言,我们训练了基于能量的Transformer(EBTs)——一类新型的基于能量的模型(EBMs)——为每一对输入和候选预测赋予能量值,从而通过基于梯度下降的能量最小化直至收敛来实现预测。在离散(文本)和连续(视觉)模态上,我们发现EBTs在训练期间比主流的Transformer++方法扩展得更快,在数据、批量大小、参数、浮点运算次数和深度方面实现了高达35%的扩展率提升。在推理阶段,EBTs在语言任务上通过系统二思维将性能提升了29%,超越了Transformer++;同时,在图像去噪任务上,EBTs以更少的前向传递次数超越了扩散Transformer。此外,我们发现,在相同或更差的预训练性能下,EBTs在多数下游任务上均优于现有模型,表明EBTs比现有方法具有更好的泛化能力。因此,EBTs为扩展模型的学习与思考能力提供了一个极具前景的新范式。
尽管大型语言模型(LLMs)已展现出变革性力量,它们仍会犯错并可能探索低效的推理路径。自我纠错能力对于构建可信赖的LLM,尤其是自回归型LLM而言至关重要。虽然LLMs能够识别用户输入中的错误,但它们却表现出一种系统性的“自我纠错盲区”——无法纠正自身输出中的相同错误。为系统研究这一现象,我们引入了自我纠错基准(Self-Correction Bench),这是一个通过三个复杂度层次上的受控错误注入来量化该现象的系统框架。测试14个模型后,我们发现平均盲区率高达64.5%。多项证据表明,这一局限与训练数据构成有关:人类训练示范主要展示无错误的响应,而非错误纠正序列,这与通过结果反馈学习错误纠正的强化学习训练模型形成对比。值得注意的是,仅简单添加“等待”提示便使盲区减少了89.3%,暗示这一能力虽存在但需被激活。我们的研究揭示了当前LLMs的一个关键局限,并为提升其可靠性与可信度提供了潜在路径。
线性注意力机制为大型语言模型(LLMs)带来了显著优势,其线性计算复杂度使得超长序列(例如100万上下文)的高效处理成为可能。然而,现有的序列并行(SP)方法,作为跨设备分配这些工作负载的关键手段,却因巨大的通信开销成为了主要瓶颈。本文提出了一种针对线性注意力模型的零通信开销序列并行方法——ZeCO,旨在克服这些限制,实现长序列训练的端到端近线性扩展。例如,使用ZeCO在64台设备上训练一个100万序列长度的模型,所需时间与在单台设备上训练16k序列大致相当。ZeCO的核心在于All-Scan,这是一种新的集体通信原语。All-Scan为每个SP等级精确提供其所需的初始算子状态,同时保持最小的通信足迹,从而有效消除通信开销。理论上,我们证明了ZeCO的最优性,表明其仅引入可忽略的时间和空间开销。实证上,我们比较了不同序列并行策略的通信成本,并证明All-Scan在SP场景中实现了最快的通信速度。具体而言,在256个GPU上处理800万序列长度时,ZeCO相比当前最先进的SP方法实现了60%的速度提升。我们相信,ZeCO为在以往难以处理的序列长度上高效训练下一代LLMs开辟了一条清晰的道路。
监督微调(SFT)被广泛用于将大型语言模型(LLMs)与信息抽取(IE)任务对齐,例如命名实体识别(NER)。然而,标注此类细粒度标签并训练领域特定模型的成本高昂。现有研究通常跨多个领域训练统一模型,但此类方法缺乏适应性和可扩展性,因为并非所有训练数据都对目标领域有益,且扩展已训练模型仍具挑战性。我们提出了SaM框架,该框架在推理时动态选择和合并专家模型。具体而言,针对目标领域,我们基于(i)与目标领域的相似度和(ii)在采样实例上的表现,分别从现有领域预训练的领域特定专家中进行选择。随后,这些专家被合并以创建针对目标领域优化的任务特定模型。通过动态合并对目标领域有益的专家,我们无需额外训练即可提升跨领域的泛化能力。此外,专家模型可以便捷地添加或移除,从而具备极佳的可扩展性。在多个基准测试上的广泛实验证明了我们框架的有效性,其平均性能优于统一模型10%。我们还深入探讨了框架的潜在改进方向、实践经验及其扩展应用。
强化学习(RL)已成为大型语言模型(LLM)后训练阶段的关键技术。传统的任务共置RL框架存在显著的可扩展性瓶颈,而任务分离的RL框架则面临复杂数据流及其导致的资源闲置与负载不均的挑战。此外,现有框架大多与LLM训练或推理引擎紧密耦合,难以支持定制化引擎。为应对这些挑战,我们提出了AsyncFlow,一种用于高效后训练的异步流式RL框架。具体而言,我们引入了一个分布式数据存储与传输模块,以全流式方式提供统一的数据管理和细粒度调度能力。该架构天然促进了RL任务间的自动化流水线重叠与动态负载均衡。此外,我们设计了一种基于生产者-消费者模式的异步工作流,通过在陈旧度阈值内策略性地延迟参数更新过程,最大限度地减少计算闲置。最后,AsyncFlow的核心能力在架构上与底层训练和推理引擎解耦,并通过面向服务的用户接口进行封装,提供了模块化且可定制的用户体验。大量实验表明,与最先进的基线相比,平均吞吐量提升了1.59倍。本文提出的架构为下一代RL训练系统设计提供了可操作的洞见。
多器官医学分割是医学图像处理中的关键环节,对于医生做出准确诊断和制定有效治疗方案至关重要。尽管该领域已取得显著进展,但当前的多器官分割模型常面临细节不精确、依赖几何提示以及空间信息丢失等问题。针对这些挑战,我们提出了一种基于SAM2的新型模型——CRISP-SAM2,它结合了跨模态交互与语义提示,为基于器官文本描述的多器官医学分割提供了一种有前景的解决方案。我们的方法首先通过渐进式跨注意力交互机制,将视觉与文本输入转化为跨模态的上下文语义,随后将这些语义注入图像编码器,以增强对视觉信息的细节理解。为了消除对几何提示的依赖,我们采用语义提示策略,替代原有的提示编码器,以提升对复杂目标的感知能力。此外,还应用了记忆的相似度排序自更新策略和掩码精炼过程,进一步适应医学影像并强化局部细节。在七个公开数据集上的对比实验表明,CRISP-SAM2超越了现有模型。深入分析也验证了我们方法的有效性,特别是在解决上述局限性方面展现了其卓越性能。我们的代码已公开于:https://github.com/YU-deep/CRISP\_SAM2.git。
近期,视觉-语言分割领域的进展极大地推动了基于视觉的语义理解。然而,这些模型常出现幻觉现象,即对图像中并不存在的物体生成分割掩码,或错误标记无关区域。现有的分割幻觉评估方法主要关注标签或文本层面的幻觉,而未对视觉上下文进行操控,这限制了其诊断关键性失效的能力。为此,我们推出了HalluSegBench,这是首个专门通过反事实视觉推理视角来评估视觉基础中幻觉现象的基准。该基准包含一个由1340对反事实实例组成的新数据集,涵盖281个独特物体类别,以及一套新引入的度量标准,用于量化在视觉连贯场景编辑下的幻觉敏感性。在HalluSegBench上对最先进的视觉-语言分割模型进行的实验表明,视觉驱动的幻觉远比标签驱动的更为普遍,模型常持续进行错误分割,凸显了利用反事实推理来诊断基础忠实性的必要性。