每日精选AI研究论文及翻译
大型语言模型(LLMs)已进化为具备自主工具使用和多步推理能力的智能体系统,能够解决复杂问题。然而,基于通用基础模型的后训练方法在智能体任务中表现始终欠佳,尤其是在开源实现中。我们发现了根本原因:缺乏强大的智能体基础模型,迫使模型在后训练过程中同时学习多样化的智能体行为,并将其与专家示范对齐,从而产生了根本性的优化冲突。为此,我们首次提出将智能体持续预训练(Agentic CPT)纳入深度研究智能体训练流程,以构建强大的智能体基础模型。基于这一方法,我们开发了一个名为AgentFounder的深度研究智能体模型。我们在10个基准上评估了AgentFounder-30B,并取得了最先进的性能,同时保持了强大的工具使用能力,特别是在BrowseComp-en上达到39.9%,在BrowseComp-zh上达到43.3%,在HLE上Pass@1达到31.5%。
本文探讨了开放式深度研究(OEDR)这一复杂挑战,其中AI代理需要将海量网络信息综合为富有洞察力的报告。现有方法普遍存在双重局限:静态研究流程将规划与证据获取割裂,而一次性生成范式则易受长上下文失效问题困扰,如“中间信息丢失”和幻觉现象。为应对这些挑战,我们提出了WebWeaver,一种模拟人类研究过程的新型双代理框架。规划器在动态循环中运作,迭代地交织证据获取与大纲优化,生成一个全面、基于来源的大纲,并链接至证据记忆库。随后,写作者执行分层检索与写作流程,逐部分撰写报告。通过针对性地从记忆库中检索每部分所需证据,该框架有效缓解了长上下文问题。我们的框架在包括DeepResearch Bench、DeepConsult和DeepResearchGym在内的主要OEDR基准测试中确立了新的技术标杆。这些结果验证了我们以人为中心、迭代式方法的有效性,表明适应性规划和聚焦式综合对于生成高质量、可靠且结构良好的报告至关重要。
超越人类认知局限是LLM训练中的一个关键前沿领域。专有的智能代理系统,如DeepResearch,已在极其复杂的信息检索基准测试(如BrowseComp)中展现出超人类的能力,这一成就此前难以企及。我们认为,其成功关键在于开源模型所缺乏的一种高级推理模式:在浩瀚信息海洋中航行时,系统性地降低极端不确定性的能力。基于这一洞见,我们推出了WebSailor,一套完整的后训练方法论,旨在赋予模型这一关键能力。我们的方法包括通过结构化采样与信息模糊化生成新颖的高不确定性任务、RFT冷启动,以及一种高效的智能代理强化学习训练算法——复制采样策略优化(DUPO)。凭借这一集成流程,WebSailor在复杂信息检索任务中显著超越所有开源代理,与专有代理的性能相当,缩小了能力差距。
基于大型语言模型(LLM)的网页代理在知识密集型任务上展现出强劲性能,但在ReAct等范式下受限于上下文窗口的约束。涉及多实体、复杂关系及高度不确定性的复杂查询,需要大量搜索周期,往往在获得完整解决方案前就迅速耗尽上下文预算。为应对这一挑战,我们引入了ReSum,一种通过定期上下文摘要实现无限探索的新范式。ReSum将不断增长的交互历史转化为紧凑的推理状态,既保持对先前发现的认知,又绕过了上下文限制。为适应这一范式,我们提出了ReSum-GRPO,它结合了GRPO与分段轨迹训练及优势广播,使代理熟悉基于摘要的推理。在三个基准测试中对不同规模的网页代理进行广泛实验,结果表明,ReSum相比ReAct平均绝对提升了4.5%,经过ReSum-GRPO训练后,提升幅度进一步达到8.2%。值得注意的是,仅使用1K训练样本,我们的WebResummer-30B(WebSailor-30B的ReSum-GRPO训练版本)在BrowseComp-zh上实现了33.3%的Pass@1,在BrowseComp-en上达到18.3%,超越了现有的开源网页代理。
高级代理智能是大型语言模型在实际应用中部署的先决条件。多样化的现实世界API要求精确、稳健的函数调用智能,这需要代理在多变环境中通过交互来发展这些能力。函数调用能力的广度与代理训练环境的多样性密切相关。在本研究中,我们通过扩展环境作为提升通用代理智能的一步,由此引出两大核心挑战:(i) 如何以原则性的方式扩展环境,以及(ii) 如何从与这些环境交互获得的经验中有效训练代理能力。为此,我们设计了一个可扩展框架,自动构建完全模拟的异构环境,系统性地拓宽函数调用场景的空间。我们进一步采用两阶段代理微调策略:首先赋予代理基础代理能力,随后针对特定领域进行专业化。在代理基准测试tau-bench、tau2-Bench和ACEBench上的大量实验表明,我们训练的模型AgentScaler显著增强了模型的函数调用能力。
近期深度研究系统的进展展现了AI代理从外部资源自主发现与综合知识的潜力。本文介绍WebResearcher,一个构建此类代理的创新框架,其核心包含两大组件:(1) WebResearcher,一种迭代式深度研究范式,将深度研究重构为马尔可夫决策过程,在此过程中,代理定期将发现整合至不断演进的报告中,同时保持专注的工作空间,有效克服了现有单上下文方法中常见的上下文窒息与噪声污染问题;(2) WebFrontier,一个可扩展的数据合成引擎,通过工具增强的复杂度提升生成高质量训练数据,系统性地创建研究任务,弥合被动知识回忆与主动知识构建之间的鸿沟。值得注意的是,我们发现该范式生成的训练数据显著提升了传统单上下文方法的工具使用能力。此外,该范式通过并行思维自然扩展,支持多代理并发探索,以得出更为全面的结论。在六大挑战性基准上的广泛实验表明,WebResearcher实现了最先进的性能,甚至超越了前沿的专有系统。
高质量3D资产的创作,作为现代游戏开发的基石,长期以来一直以劳动密集且专业化的流程为特征。本文介绍了Hunyuan3D Studio,一个端到端的AI驱动内容创作平台,旨在通过自动化和简化游戏就绪3D资产的生成,彻底革新游戏生产管线。Hunyuan3D Studio的核心在于将一系列先进的神经模块(如部件级3D生成、多边形生成、语义UV等)集成到一个统一且用户友好的系统中。这一整合框架能够快速将单一概念图像或文本描述转化为完整实现、生产质量的3D模型,包含优化的几何结构和高保真的PBR纹理。我们展示,Hunyuan3D Studio生成的资产不仅视觉上引人入胜,而且符合当代游戏引擎的严格技术要求,显著减少了迭代时间,降低了3D内容创作的门槛。通过提供从创意意图到技术资产的无缝桥梁,Hunyuan3D Studio代表了游戏开发和互动媒体中AI辅助工作流程的重大飞跃。
我们重新审视了从单流视角出发的大语言模型(LLM)策略梯度优化方法。当前主流的基于群体的方法,如GRPO,通过即时基线减少方差,但存在关键缺陷:频繁出现的退化群体抹去了学习信号,同步障碍阻碍了可扩展性。我们提出了单流策略优化(SPO),从设计上消除了这些问题。SPO用持久且KL自适应的价值追踪器替代了每群体基线,并在批次内全局归一化优势,为每个样本提供了稳定、低方差的学习信号。由于无需群体划分,SPO在生成时间变化的长时程或工具集成场景中实现了更高的吞吐量和有效扩展。此外,持久价值追踪器自然支持通过优先级采样实现自适应课程学习。使用Qwen3-8B的实验表明,SPO比GRPO收敛更平稳,达到更高的准确率,同时消除了在退化群体上浪费的计算。消融研究证实,SPO的增益源于其基线估计和优势归一化的原则性方法,为LLM推理提供了更稳健高效的路径。在Qwen3 8B上进行的五个高难度数学基准测试中,SPO相较于GRPO将平均maj@32提高了3.4个百分点(pp),这得益于在挑战性数据集上的显著绝对分数提升,包括BRUMO 25上的+7.3 pp,AIME 25上的+4.4 pp,HMMT 25上的+3.3 pp,并在评估的k值范围内实现了pass@k的一致相对增益。SPO的成功挑战了当前强化学习算法中增加附带复杂性的趋势,指明了一条以基本原则而非架构变通推动LLM推理下一波进步的道路。
我们提出了空间区域三维感知视觉语言模型(SR-3D),该模型通过共享的视觉标记空间将单视图二维图像与多视图三维数据相连接。SR-3D支持灵活的区域提示功能,允许用户通过边界框、任意帧上的分割掩码或直接在三维空间中进行标注,而无需进行繁琐的多帧标记。我们通过将二维视觉特征与三维位置嵌入相结合来实现这一点,这使得三维模型能够利用强大的二维先验知识,在不同帧之间进行更准确的空间推理,即使目标物体并未在同一视图中同时出现。在通用二维视觉语言和专门的三维空间基准测试上的大量实验表明,SR-3D实现了最先进的性能,突显了其在统一二维与三维表示空间以理解场景方面的有效性。此外,我们观察到SR-3D在无需传感器三维输入或真实三维标注的野外视频中同样适用,能够准确推断空间关系和度量尺寸。
大型语言模型(LLMs)近期在自动定理证明(ATP)领域取得了显著进展,通过广泛采用的测试时扩展策略,特别是反思性思维链(CoT)推理和增加采样次数,实现了性能的大幅提升。然而,这两种策略都引入了显著的推理计算开销。此外,现有的成本分析通常仅调控采样次数,而忽视了不同扩展策略带来的采样成本显著差异。本文系统比较了ATP模型不同测试时扩展策略的效率,并展示了当前最先进(SOTA)开源方法的低效性。随后,我们探索了在保持原有性能的同时,显著减少令牌使用和采样次数的方法。具体而言,我们提出了两种互补的方法,可整合至统一的EconRL流程中以放大效益:(1)动态思维链(CoT)切换机制,旨在减少不必要的令牌消耗;(2)带有可训练前缀的多样化并行扩展强化学习(RL),以在受限采样次数下提升通过率。在miniF2F和ProofNet上的实验表明,我们的EconProver仅需基线方法12%的计算成本,即可达到与之相当的性能。这项工作为部署轻量级ATP模型而不牺牲性能提供了可操作的洞见。
人类在适应新环境时表现出极高的数据效率,比如驾驶一辆新车。相比之下,现代机器人控制系统,如通过强化学习(RL)训练的神经网络策略,往往高度专一于单一环境。这种过拟合特性使得它们即使在微小差异下,如仿真到现实(Sim2Real)的差距,也会失效,并且需要对系统进行识别和重新训练,哪怕系统只有极小的变动。在本研究中,我们提出了RAPTOR方法,用于训练一种高度自适应的基础策略,以控制四旋翼飞行器。我们的方法能够训练一个单一的、端到端的神经网络策略,来控制多种多样的四旋翼飞行器。我们测试了从32克到2.4公斤不等的10种真实四旋翼飞行器,这些飞行器在电机类型(有刷与无刷)、框架类型(软性与刚性)、螺旋桨类型(2/3/4叶)以及飞行控制器(PX4/Betaflight/Crazyflie/M5StampFly)上均有所不同。我们发现,仅含2084个参数的三层微型策略,足以实现零样本适应于多种平台。这种通过上下文学习实现的适应性,得益于隐藏层中的循环结构。该策略通过一种新颖的元模仿学习算法进行训练,我们采样了1000种四旋翼飞行器,并为每种飞行器使用强化学习训练了一个教师策略。随后,这1000个教师策略被蒸馏成一个单一的、自适应的学生策略。我们发现,在毫秒级时间内,生成的基础策略能够零样本适应于未见过的四旋翼飞行器。我们广泛测试了基础策略在多种条件下的能力(轨迹跟踪、室内/室外、风扰、触碰、不同螺旋桨)。
多模态推理依然是人工智能领域的一项根本性挑战。尽管在基于文本的推理方面取得了显著进展,即便是诸如GPT-3这样的顶尖模型,在多模态场景下也难以保持强劲表现。为弥补这一差距,我们提出了一种字幕辅助推理框架,有效连接了视觉与文本模态。该方法在ICML 2025 AI for Math研讨会暨SeePhys挑战赛中荣膺榜首,充分证明了其效能与鲁棒性。此外,我们在MathVerse基准测试上验证了其在几何推理任务中的泛化能力,展现了我们方法的广泛适用性。相关代码已公开于https://github.com/OpenDCAI/SciReasoner。
我们提出了稳定部件扩散四维框架(SP4D),该框架能够从单目输入生成配对的RGB视频与运动学部件视频。不同于依赖基于外观语义线索的传统部件分割方法,SP4D学习生成运动学部件——这些结构组件与物体关节对齐,并在视角和时间上保持一致。SP4D采用双分支扩散模型,联合合成RGB帧及对应的部件分割图。为简化架构并灵活支持不同部件数量,我们引入了一种空间色彩编码方案,将部件掩码映射为连续的类RGB图像。此编码使得分割分支能够共享RGB分支的潜在VAE,同时通过简单的后处理即可恢复部件分割。双向扩散融合模块(BiDiFuse)增强了跨分支一致性,辅以对比部件一致性损失,促进部件预测的空间与时间对齐。我们展示了生成的2D部件图可被提升至3D,以推导骨骼结构及和谐蒙皮权重,仅需少量手动调整。为训练和评估SP4D,我们构建了KinematicParts20K数据集,这是一个从Objaverse XL(Deitke等,2023)中精选并处理超过20K个绑定对象的精选数据集,每个对象均配有多视角RGB及部件视频序列。实验表明,SP4D在多样化场景中展现出强大的泛化能力,包括真实世界视频、新生成对象及罕见关节姿态,生成的运动感知输出适用于下游动画及运动相关任务。
近期,多模态大语言模型(MLLMs)在多个领域引起了广泛关注。然而,其广泛应用也引发了严重的安全隐患。本文揭示了一种MLLMs的新型安全风险:通过精心优化的图像,可以任意操控MLLMs的输出偏好。此类攻击往往生成上下文相关但带有偏见的回应,这些回应既不显露出明显的有害性,也不违背伦理,因此难以被察觉。具体而言,我们提出了一种名为“偏好劫持”(Phi)的新方法,利用偏好被劫持的图像来操控MLLM的响应偏好。该方法在推理阶段发挥作用,无需对模型进行任何修改。此外,我们引入了一种通用劫持扰动——一种可转移的组件,可嵌入不同图像中,将MLLM的响应导向攻击者指定的任何偏好。跨多种任务的实验结果验证了我们方法的有效性。Phi的代码可在https://github.com/Yifan-Lan/Phi获取。
我们提出了一种名为zELO的创新训练方法,该方法通过分析排序任务与Thurstone模型的静态等价性来优化检索性能。基于zELO方法,我们利用无监督数据训练了一套最先进的开放权重重排序模型:zerank-1和zerank-1-small。这些模型在多个领域(包括金融、法律、代码和STEM)中均取得了最高的检索分数,在NDCG@10和召回率上均超越了闭源专有重排序器。这些模型还展现了极强的泛化能力,在跨领域和私有客户数据集上保持了零样本性能。训练数据包含112,000个查询,每个查询对应100篇文档,从未标注的查询和文档端到端训练完成,耗时不到10,000个H100小时。
我们提出了一种简单、完全正确且假设条件宽松的替代方案,用于替换近期带有复高斯窗的窗口化QFT格点算法~chen2024quantum中备受争议的第9步“域扩展”。已发布的第9步存在周期性与支撑集不匹配的问题。我们引入了一种成对位移差分构造,该构造能够相干地消除所有未知偏移量,精确生成Z_{P}上的均匀CRT陪集态,随后利用QFT强制实施预期的模线性关系。该酉变换是可逆的,仅需多项式对数级(poly(log M_2))的门操作,并保持了算法的渐近性能。项目页面:https://github.com/yifanzhang-pro/quantum-lattice。
近期,大型语言模型(LLM)压缩技术,如量化和剪枝,已取得显著进展。然而,随着这些技术逐渐逼近各自的理论极限,依赖单一方法实现进一步压缩变得愈发困难。本研究探索了一种结合量化与稀疏性的替代方案。这一联合方法虽前景广阔,却因权重分布上固有的矛盾需求而引入新挑战:量化倾向于紧凑的范围,而剪枝则受益于高方差。针对这一问题,我们提出了最优大脑恢复(Optimal Brain Restoration, OBR),这是一个通用且无需训练的框架,通过误差补偿在剪枝与量化之间实现对齐。OBR基于二阶Hessian目标函数,最小化下游任务上的性能损失,并通过代理近似将其重构为可处理的问题,最终通过组误差补偿达到闭式解。实验表明,OBR支持在现有LLM上实现激进的W4A4KV4量化并保持50%的稀疏度,相较于FP16密集基线,实现了高达4.72倍的加速和6.4倍的内存缩减。
连续体机器人正在革新支气管镜检查技术,能够深入复杂的肺部气道并实现精准干预。然而,其发展受限于缺乏逼真的训练与测试环境:由于伦理限制和患者安全考虑,真实数据难以获取,而开发自主算法又需要真实的影像和物理反馈。我们推出了ROOM(医学真实光学观测)——一个全面的仿真框架,专为生成逼真的支气管镜训练数据而设计。通过利用患者的CT扫描,我们的流程渲染出多模态传感器数据,包括带有真实噪声和光反射的RGB图像、度量深度图、表面法线、光流以及医学相关尺度的点云。我们在医疗机器人领域的两个经典任务——多视角姿态估计和单目深度估计中验证了ROOM生成的数据,展示了最先进方法在迁移至这些医疗场景时需克服的多样化挑战。此外,我们证明ROOM产生的数据可用于微调现有深度估计模型以应对这些挑战,同时也支持导航等其他下游应用。我们预期ROOM将促进跨多样患者解剖结构和程序场景的大规模数据生成,这些在临床环境中难以捕捉。代码与数据请访问:https://github.com/iamsalvatore/room。
将病理图像数字化为千兆像素级的全切片图像(WSIs)为计算病理学(CPath)开辟了新的研究途径。由于阳性组织仅占千兆像素WSIs的一小部分,现有的多实例学习(MIL)方法通常通过注意力机制来识别显著实例。然而,这导致了对易于分类实例的偏向,而忽视了具有挑战性的实例。近期研究表明,困难样本对于准确建模判别边界至关重要。在实例层面应用这一理念,我们提出了一种新颖的MIL框架——掩码困难实例挖掘(MHIM-MIL),该框架利用带有一致性约束的孪生网络结构来探索困难实例。MHIM-MIL通过类感知实例概率,采用动量教师模型来掩码显著实例,并隐式挖掘困难实例以训练学生模型。为了获取多样且非冗余的困难实例,我们采用大规模随机掩码策略,同时利用全局循环网络来降低丢失关键特征的风险。此外,学生模型通过指数移动平均更新教师模型,从而识别新的困难实例用于后续训练迭代,并稳定优化过程。在癌症诊断、亚型分类、生存分析任务以及12个基准测试上的实验结果表明,MHIM-MIL在性能和效率上均优于最新方法。代码已公开于:https://github.com/DearCaat/MHIM-MIL。
差分隐私(DP)合成数据生成是一项颇具前景的技术,能够利用那些原本无法公开用于模型训练或其他分析的私有数据集。尽管大量研究文献集中于生成私有的非结构化文本和图像数据,但在企业环境中,结构化数据(如表格数据)更为常见,且通常包含自然语言字段或组件。现有的合成数据评估技术(如FID)难以捕捉此类数据集的结构特性和相关性。在本研究中,我们提出了Struct-Bench,一个用于评估源自包含自然语言数据的结构化数据集的合成数据框架与基准。Struct-Bench框架要求用户以上下文无关文法(CFG)形式提供其数据集结构的表示。我们的基准包含5个真实世界数据集和2个合成生成的数据集,每个数据集均标注有CFG。我们展示出,这些数据集即使对于最先进的DP合成数据生成方法也构成了显著挑战。Struct-Bench还整合了不同指标的参考实现及一个排行榜,从而为研究人员提供了一个标准化的评估平台,用以基准测试和探究隐私保护型合成数据生成方法。此外,我们还通过案例研究展示了如何利用Struct-Bench提升Private Evolution(PE)在结构化数据上的合成数据质量。该基准及排行榜已公开于https://struct-bench.github.io。
近年来,通过数字信号处理算法实现虚拟模拟建模的自动微分技术日益受到关注。这类算法通常比依赖密集矩阵乘法的黑箱神经网络具有更高的计算效率。由于其可微特性,它们能够与神经网络集成,并利用梯度下降算法进行联合训练,从而构建出更为高效的系统。此外,信号处理算法的参数量远少于神经网络,这使得牛顿-拉夫森方法得以应用。该方法以二次存储为代价,提供了比梯度下降更快且更稳健的收敛速度。本文提出了一种方法,通过使用参数经牛顿-拉夫森方法优化的前馈数字压缩器来模拟模拟电平放大器。我们证明,数字压缩器能够成功逼近目标设备Teletronix LA-2A的行为。文中对计算海森矩阵的不同策略进行了基准测试,并利用递归滤波器的并行算法实现了在现代GPU上的高效训练。最终模型被制作成VST插件,并在https://github.com/aim-qmul/4a2a开源发布。