每日精选AI研究论文及翻译
大型语言模型(LLMs)正日益被寄望于超越简单的事实查询,转向深度研究任务,这些任务需要将问题分解为子问题、协调多步推理,并从多样化的来源中综合证据。我们将具有可验证答案的深度研究任务形式化为层次约束满足问题(HCSPs),这与单一约束、多跳或扁平CSP的表述有本质区别。然而,现有的基准测试(如Natural Questions、HotpotQA)未能捕捉到这种复杂性,而近期的合成数据集往往引入了捷径推理、知识泄露或缺乏足够的结构深度。为填补这一空白,我们引入了InfoSeek,一个用于合成复杂深度研究任务的可扩展框架。InfoSeek采用双代理系统,从大规模网页中递归构建研究树,将中间节点模糊化为有效的子问题,并将这些树转化为需要遍历完整层级的自然语言问题。它还支持快速扩展,生成了超过50K的训练样本、精选的测试集,以及通过拒绝采样生成的推理轨迹。实验表明,在InfoSeek上训练的模型持续超越强基线。在具有挑战性的基准测试BrowseComp-Plus上,经过InfoSeek优化的3B LLMs超越了更大的32B模型和轻量级商业API(如Gemini2.5-Flash),同时达到了与更强API(如Gemini2.5-Pro)相当的性能。通过保留中间步骤和检索标签等元信息,InfoSeek进一步支持包括复合奖励设计和轨迹级探索在内的先进优化策略。我们在https://github.com/VectorSpaceLab/InfoSeek{此仓库}中提供了代码和数据集。
我们推出Robix,这是一个统一模型,将机器人推理、任务规划和自然语言交互集成于单一视觉-语言架构中。作为分层机器人系统中的高层认知模块,Robix动态生成原子指令供底层控制器执行,同时产生语言响应以支持人机交互,使机器人能够在端到端框架下遵循复杂指令、规划长期任务,并与人类自然互动。Robix进一步引入了新颖功能,如主动对话、实时中断处理以及在任务执行过程中的情境感知常识推理。其核心在于利用思维链推理,并采用三阶段训练策略:(1)持续预训练,以增强包括三维空间理解、视觉定位和任务中心推理在内的基础具身推理能力;(2)监督微调,将人机交互和任务规划建模为统一的推理-行动序列;(3)强化学习,以提高推理-行动的一致性和长期任务的连贯性。大量实验表明,Robix在交互式任务执行上超越了开源和商业基线模型(如GPT-4o和Gemini 2.5 Pro),展现出对多种指令类型(如开放式、多阶段、受限、无效和中断)以及涉及用户的各种任务(如餐桌清理、购物和饮食筛选)的强大泛化能力。
可验证奖励的强化学习(RLVR)已成为数学推理任务的主导范式,在推理能力上提供了稳定的提升。然而,RLVR中的结果奖励模型(ORMs)过于粗粒度,无法区分正确答案中的错误推理或错误答案中的有效推理。这种粒度的缺失显著引入了噪声和误导性梯度,阻碍了推理过程质量的进一步提升。虽然过程奖励模型(PRMs)为中间步骤提供了细粒度的指导,但它们常常存在不准确性,并且容易受到奖励操控的影响。 为解决这一困境,我们引入了过程一致性过滤器(PROF),这是一种有效的数据处理优化方法,它协调了噪声大、细粒度的过程奖励与准确但粗粒度的结果奖励。与在目标函数中简单混合PRM和ORM(arXiv:archive/2506.18896)不同,PROF通过一致性驱动的样本选择,充分利用了它们的互补优势。我们的方法保留了过程值较高的正确响应和过程值较低的错误响应,同时保持了正负训练样本的平衡。大量实验表明,我们的方法不仅比混合方法持续提高了超过4%的最终准确率,还增强了中间推理步骤的质量。代码和训练配方可在https://github.com/Chenluye99/PROF获取。
语言模型(LMs)日益驱动着需要世界知识的现实应用。然而,模型如何将数据转化为对世界的知识和信念的内部过程,目前尚不为人所充分理解。深入这些过程的研究,可能为开发具有更一致、更稳健、更完整知识表示的LMs铺平道路。为便于探讨这些问题,我们推出了LMEnt,一套用于分析LMs在预训练期间知识获取的工具集。LMEnt包含:(1)一个基于维基百科、全面标注实体提及的知识密集型预训练语料库;(2)一种基于实体的预训练数据检索方法,其性能较以往方法提升高达80.4%;以及(3)12个参数规模达10亿、包含4000个中间检查点的预训练模型,在知识基准测试中表现与主流开源模型相当。这些资源共同构建了一个受控环境,用于分析预训练中实体提及与下游性能之间的联系,以及预训练数据中因果干预的影响。通过跨检查点研究知识获取,我们展示了LMEnt的实用性,发现事实频率是关键因素,但并不能完全解释学习趋势。我们发布LMEnt,以支持对LMs中知识的研究,包括知识表示、可塑性、编辑、归因及学习动态等方面。
有效的规划需要强大的世界模型,然而,能够理解并基于语义与时间抽象进行行动推理的高层次世界模型仍大多处于发展不足的状态。我们提出了视觉语言世界模型(VLWM),这是一个针对自然视频进行语言建模训练的基础模型。面对视觉观察,VLWM首先推断总体目标达成情况,随后预测由交替行动与世界状态变化构成的轨迹。这些目标通过迭代式大语言模型自我精炼(LLM Self-Refine)提取,该过程以“标题树”形式压缩的未来观察为条件。VLWM同时学习行动策略与动态模型,分别促进基于反应的系统一计划解码和通过成本最小化实现的反思性系统二规划。成本评估由VLWM推演给出的假设未来状态与预期目标状态之间的语义距离,并由我们以自监督方式训练的批评模型进行度量。VLWM在基准评估及我们提出的PlannerArena人类评估中,均实现了视觉辅助规划(VPA)性能的领先,其中系统二较系统一提升了Elo评分+27%。此外,VLWM模型在RoboVQA与世界预测基准测试中也超越了强大的视觉语言模型(VLM)基线。
可控人脸生成在生成建模中提出了关键挑战,这源于在语义可控性与照片级真实感之间所需的微妙平衡。尽管现有方法在将语义控制与生成流程解耦方面存在困难,我们通过专家专业化的视角重新审视了扩散变换器(DiTs)的架构潜力。本文介绍了Face-MoGLE,一个创新框架,其特点包括:(1)通过掩码条件空间分解实现语义解耦的潜在建模,从而支持精确的属性操控;(2)混合全局与局部专家机制,捕捉整体结构及区域级语义,以实现细粒度控制;(3)动态门控网络生成随时间扩散步骤和空间位置变化的系数。Face-MoGLE为高质量、可控的人脸生成提供了一个强大而灵活的解决方案,在生成建模与安全应用领域展现出巨大潜力。大量实验验证了其在多模态与单模态人脸生成场景下的有效性,以及其强大的零样本泛化能力。项目页面详见https://github.com/XavierJiezou/Face-MoGLE。
多主体个性化生成在基于多个参考主体合成图像时,面临着保持身份保真度和语义一致性的独特挑战。现有方法由于未能充分建模不同主体在共享表示空间中的交互方式,常常出现身份混淆和属性泄露的问题。我们提出了MOSAIC,一个以表示为中心的框架,通过显式语义对应和正交特征解耦重新思考多主体生成。我们的核心见解是,多主体生成需要在表示层面实现精确的语义对齐——明确知道生成图像中的哪些区域应关注每个参考主体的哪些部分。为此,我们引入了SemAlign-MS,这是一个精心标注的数据集,提供了多个参考主体与目标图像之间的细粒度语义对应关系,这在以往的研究领域中尚属首次。基于此,我们提出了语义对应注意力损失,以强制执行精确的点对点语义对齐,确保每个参考主体与其指定区域的高度一致性。此外,我们开发了多参考解耦损失,将不同主体推入正交的注意力子空间,防止特征干扰的同时保留个体身份特征。大量实验表明,MOSAIC在多个基准测试中达到了最先进的性能。值得注意的是,现有方法通常在超过3个主体时性能下降,而MOSAIC在4个及以上参考主体时仍能保持高保真度,为复杂的多主体合成应用开辟了新的可能性。
现代机器人操作技术主要依赖二维彩色空间的视觉观察进行技能学习,但存在泛化能力不足的问题。相比之下,生活在三维世界中的人类,在与物体互动时,更多依赖于距离、大小和形状等物理属性,而非纹理。鉴于此类三维几何信息可通过广泛应用的深度相机获取,赋予机器人相似的感知能力似乎可行。我们的初步研究发现,使用深度相机进行操控面临挑战,主要源于其精度有限及易受多种噪声干扰。本研究中,我们提出相机深度模型(CDMs)作为日常使用深度相机的简易插件,它以RGB图像和原始深度信号为输入,输出去噪后的精确度量深度。为此,我们开发了一个神经数据引擎,通过模拟深度相机的噪声模式,从仿真中生成高质量配对数据。实验结果显示,CDMs在深度预测上达到了近乎仿真级别的精度,有效弥合了仿真到现实操作任务的差距。尤为值得一提的是,我们的实验首次证明,基于原始仿真深度训练的策略,无需添加噪声或进行现实世界微调,即可无缝迁移至现实机器人,在涉及铰接、反光及细长物体的两项长期复杂任务中,性能几乎无损。我们期望这一发现能激发未来研究在通用机器人策略中利用仿真数据及三维信息的兴趣。
近期,大型语言模型(LLMs)的进展展现了其卓越的通用推理能力。然而,由于缺乏可控且可扩展的细粒度分析工具,系统性地评估和提升这些推理能力面临挑战。现有的基准测试和数据集往往缺少多维、系统性分析和训练所需的变量控制,或局限于狭窄的问题类型和格式。为应对这些局限,我们推出了SATQuest,一个系统性验证器,旨在通过直接从合取范式(CNF)实例生成多样化的基于可满足性的逻辑推理问题,来评估和增强LLMs的逻辑推理能力。SATQuest沿三个正交维度构建这些问题:实例规模、问题类型和提问格式,采用随机化的基于SAT的问题生成方法,并通过PySAT进行客观答案验证。这一设计缓解了记忆问题,允许对推理性能进行细致入微的洞察,并支持有效的强化微调。我们利用SATQuest对多种LLMs进行了广泛评估,发现它们在逻辑推理方面存在显著局限,尤其是在超越熟悉的数学格式进行泛化时。此外,我们展示了使用SATQuest奖励进行强化微调能显著提升目标任务表现,并推广至更复杂的实例,同时揭示了跨格式适应方面仍存的挑战。通过这些展示,我们彰显了SATQuest作为基础工具的潜力,以及其作为推进LLM逻辑推理研究宝贵起点的价值。