每日精选AI研究论文及翻译
为突破大语言模型(LLMs)在推理准确性和效率上的上下文限制瓶颈,我们提出了线程推理模型(TIM),这是一类专为递归与分解式问题解决而训练的LLMs家族,以及TIMRUN,一种支持超越上下文限制的长程结构化推理的推理运行时。TIM与TIMRUN相结合,在单一语言模型推理中实现了近乎无限的工作记忆和多跳工具调用,克服了输出限制、位置嵌入约束及GPU内存瓶颈。这一性能的达成,源于我们将自然语言建模为按长度与深度衡量的推理树,而非线性序列。这些推理树由任务、思考、递归子任务及基于我们在Schroeder等人2025年提出的概念得出的结论构成。在生成过程中,我们维护一个工作记忆,仅保留最相关上下文标记的键值状态,通过基于规则的子任务剪枝机制进行选择,从而在整个推理过程中重复利用位置嵌入和GPU内存页。实验结果表明,即使在操纵GPU内存中高达90%的键值缓存时,我们的系统仍能保持高推理吞吐量,并在数学任务上实现精确推理,同时应对需要长程推理和多跳工具使用的信息检索挑战。
本文介绍了Step-Audio~2,一款专为工业级音频理解与语音对话设计的端到端多模态大语言模型。通过整合潜在音频编码器与以推理为核心的强化学习(RL),Step-Audio 2在自动语音识别(ASR)及音频理解方面展现了卓越性能。为实现真正的端到端语音对话,Step-Audio 2将离散音频令牌生成融入语言建模中,显著提升了对副语言信息(如说话风格与情感)的响应能力。为有效利用现实世界数据中丰富的文本与声学知识,Step-Audio 2集成了检索增强生成(RAG),并能够调用外部工具,如网络搜索以减少幻觉,以及音频搜索以切换音色。基于数百万小时的语音与音频数据训练,Step-Audio 2在多样化的对话场景中展现了智能与表现力。评估结果表明,相较于其他开源与商业解决方案,Step-Audio 2在多项音频理解与对话基准测试中均达到了业界领先水平。更多信息,请访问https://github.com/stepfun-ai/Step-Audio2。
科学推理对于培养AI科学家及支持人类研究人员推进自然科学发现前沿至关重要。然而,开源社区主要聚焦于数学与编程领域,而忽视了科学领域,这很大程度上归因于缺乏公开、大规模、高质量且可验证的科学推理数据集。为填补这一空白,我们首先推出了TextbookReasoning,一个开放数据集,包含从12,000本大学科学教材中提取的真实参考答案,涵盖7个科学学科的650,000道推理题。进一步,我们引入了MegaScience,这是一个大规模混合的高质量开源数据集,总计125万条实例,通过系统性的消融研究开发,评估了多种数据选择方法,以确定每个公开科学数据集的最佳子集。同时,我们构建了一个全面的评估体系,覆盖15个基准测试中的多样化主题与题型,整合了全面的答案提取策略,确保评估指标的准确性。实验表明,与现有开源科学数据集相比,我们的数据集在性能与训练效率上表现更优,且响应长度更为简洁。此外,我们在MegaScience上训练了Llama3.1、Qwen2.5及Qwen3系列基础模型,这些模型在平均性能上显著超越了相应的官方指导模型。更重要的是,MegaScience对更大更强的模型展现出更高的有效性,暗示了科学调优的规模效益。我们向社区发布了数据整理流程、评估系统、数据集及七个训练模型,以推动科学推理研究的发展。
视觉-语言-动作(VLA)推理任务要求智能体能够解读多模态指令,进行长时程规划,并在动态环境中自适应地执行动作。现有方法通常以端到端的方式训练VLA模型,直接将输入映射至动作,缺乏显式推理过程,这限制了其进行多步规划或适应复杂任务变体的能力。本文提出ThinkAct,一种双系统框架,通过强化视觉潜在规划,将高层推理与低层动作执行相连接。ThinkAct训练一个多模态大语言模型,以基于目标达成与轨迹一致性的动作对齐视觉奖励为指导,生成具身推理计划。这些推理计划被压缩为视觉计划潜在变量,用于条件化下游动作模型,从而在目标环境中实现稳健的动作执行。在具身推理与机器人操作基准上的大量实验表明,ThinkAct能够在复杂的具身人工智能任务中实现少样本适应、长时程规划及自我纠正行为。
扩散变换器作为基于U-net的扩散模型的替代方案,在高保真图像和视频生成领域崭露头角,展现出卓越的可扩展性。然而,其庞大的计算量仍是实际部署中的主要障碍。现有的加速方法主要利用时间维度,如在扩散时间步间重用缓存特征。本文提出了一种无需训练的框架——区域自适应潜在上采样(RALU),旨在从空间维度加速推理过程。RALU通过三个阶段实现混合分辨率采样:1)低分辨率去噪潜在扩散,以高效捕捉全局语义结构;2)对全分辨率下易产生伪影的特定区域进行区域自适应上采样;3)全分辨率下的所有潜在上采样,用于细节精修。为确保分辨率转换间生成的稳定性,我们采用噪声时间步重调度策略,以适应不同分辨率下的噪声水平。该方法在显著减少计算量的同时,保持了图像质量,在FLUX上实现了高达7.0倍的加速,在Stable Diffusion 3上达到3.0倍,且质量损失极小。此外,RALU与现有的时间维度加速方法(如缓存技术)互补,可无缝集成以进一步降低推理延迟,而不影响生成质量。
人类在解决复杂问题时,常借助视觉辅助工具,如图表或草图。训练多模态模型实现类似功能,即视觉思维链(Visual CoT),面临两大挑战:(1) 现成视觉CoT性能欠佳,阻碍了强化学习的应用;(2) 高质量视觉CoT训练数据的匮乏。为此,我们推出了Zebra-CoT,一个包含182,384个样本的多样化大规模数据集,其中蕴含逻辑连贯的图文交替推理轨迹。我们聚焦于四类任务,这些任务中绘图或视觉推理尤为自然,涵盖几何、物理、算法等科学问题;二维视觉推理任务,如视觉搜索与拼图;三维推理任务,包括三维多跳推理、具身及机器人规划;视觉逻辑问题及国际象棋等策略游戏。在Zebra-CoT训练集上微调Anole-7B模型,使测试集准确率提升了12%,并在标准VLM基准评估中最高获得13%的性能增益。微调Bagel-7B则生成了高质量的交织视觉推理链,充分证明了Zebra-CoT在开发多模态推理能力方面的有效性。我们开源了数据集与模型,以支持视觉CoT的开发与评估。
提升大型视觉语言模型(LVLMs)的视觉慢思考推理能力对于解决复杂多模态任务至关重要。然而,由于LVLMs主要依赖于视觉语言对齐进行训练,采用在线强化学习(RL)来发展慢思考能力较为困难,因为其探索空间受限于初始能力。离线RL提供了一种超越当前策略的途径,但直接从外部模型提取轨迹可能因模型间视觉感知能力不匹配而导致视觉幻觉。针对这些问题,本文提出了SOPHIA,一种简单且可扩展的半离线RL方法,用于视觉语言慢思考推理。SOPHIA通过结合可训练LVLM的在线视觉理解与语言模型的离线慢思考推理,构建了一个半离线行为模型,为推理分配基于结果的奖励,并向后传播视觉奖励。随后,LVLM利用通过离线RL算法获得的推理轨迹及传播的奖励,学习慢思考推理能力。在InternVL2.5和InternVL3.0(8B和38B规模)上的大量实验验证了SOPHIA的有效性。值得注意的是,SOPHIA使InternVL3.0-38B平均提升了8.50%,在多个多模态推理基准测试中达到了开源LVLMs的最先进性能,甚至在具有挑战性的MathVision和OlympiadBench上超越了部分闭源模型(如GPT-4.1),分别取得了49.08%和49.95%的pass@1准确率。分析表明,SOPHIA优于监督微调和直接在线RL方法,为后续在线训练提供了更好的策略初始化。
视觉语言模型(VLMs)在机器人领域已被广泛采用,以实现自主规划。然而,将最初基于互联网数据训练的VLMs应用于多样化的现实世界机器人仍面临挑战。本文提出了ExpTeach框架,通过构建自我生成的现实世界经验记忆,将VLMs与物理机器人进行对接。在ExpTeach中,VLM自主规划动作、验证结果、反思失败,并在闭环中调整机器人行为。这一过程中产生的自我生成经验随后被总结为长期记忆,通过检索增强生成(RAG)技术,能够检索已学知识以指导未来任务。此外,ExpTeach通过按需图像标注模块增强了VLMs的空间理解能力。实验表明,反思将四项挑战性机器人任务的成功率从36%提升至84%,并观察到智能物体交互行为的涌现,包括创造性的工具使用。在12个现实世界场景(其中8个为未见过的场景)的广泛测试中,我们发现结合长期记忆的对接使单次尝试成功率从22%提高至80%,充分证明了ExpTeach的有效性和泛化能力。
随着大语言模型(LLMs)的迅猛发展,构建有效的批评模块以实现精准指导变得至关重要,却也颇具挑战。本文首先揭示,当前广泛采用的监督微调方法在构建批评模块时,未能真正提升模型的批判能力,仅产生浅显的批评,缺乏深入的反思与验证。为释放前所未有的批判潜力,我们提出了RefCritic,一个基于强化学习的长链思维批评模块,采用双重规则奖励机制:(1)解决方案判断的实例级准确性,以及(2)基于批评的策略模型精炼准确度,旨在生成高质量评估并提供可操作的反馈,有效指导模型优化。我们在Qwen2.5-14B-Instruct和DeepSeek-R1-Distill-Qwen-14B模型上,通过五项基准测试评估了RefCritic。在批评与精炼场景下,RefCritic在所有基准测试中均展现出持续优势,例如,在AIME25上,两个基础模型分别提升了6.8%和7.2%。值得注意的是,在多数投票机制下,经RefCritic筛选的策略模型随着投票数增加展现出更优的扩展性。此外,尽管RefCritic在解决方案层面进行监督训练,但在ProcessBench(一个用于识别数学推理中错误步骤的基准测试)上,其表现超越了步骤级监督方法。
现有的图像引导合成方法虽能在用户指定的背景图像区域插入前景对象,并实现区域内自然融合而保持图像其余部分不变,但我们观察到,这些方法在处理涉及人-物交互的任务时,往往难以生成无缝的交互感知合成效果。本文首次提出HOComp,一种新颖的方法,用于将前景对象合成到以人为中心的背景图像中,同时确保前景对象与背景人物之间的和谐交互及其外观的一致性。我们的方法包含两大关键设计:(1) 基于MLLMs的区域姿态引导(MRPG),利用MLLMs识别交互区域及交互类型(如持握、举起),为生成的交互姿态提供从粗到细的约束,同时结合人体姿态关键点追踪动作变化,实施细粒度姿态约束;(2) 细节一致的外观保持(DCAP),通过统一形状感知的注意力调制机制、多视角外观损失及背景一致性损失,确保前景形状/纹理的一致性及背景人物的忠实再现。此外,我们提出了首个针对该任务的数据集——交互感知的人-物合成数据集(IHOC)。在数据集上的实验结果表明,HOComp能有效生成具有一致外观的和谐人-物交互,在定性和定量上均优于相关方法。
近期,大型语言模型(LLMs)的进展为学术文献检索开辟了新的机遇。然而,现有系统往往依赖固定的处理流程,且推理能力有限。我们提出了SPAR,一个多智能体框架,它通过基于RefChain的查询分解与查询演化,实现了更为灵活高效的搜索。为了支持系统化评估,我们还构建了SPARBench,这是一个包含专家标注相关性标签的挑战性基准。实验结果显示,SPAR显著超越了现有强基线,在AutoScholar上F1分数提升高达+56%,在SPARBench上相比表现最佳的基线也有+23%的提升。SPAR与SPARBench共同为推进学术检索研究提供了一个可扩展、可解释且高性能的基础。代码与数据将在以下网址提供:https://github.com/xiaofengShi/SPAR。
量化是一种通过以较低精度表示网络参数来减小网络规模及计算复杂度的关键技术。传统量化方法依赖于对原始训练数据的访问,而由于隐私保护或安全挑战,这些数据往往受限。零样本量化(ZSQ)通过使用从预训练模型生成的合成数据,解决了这一问题,无需真实训练数据。最近,ZSQ已扩展至目标检测领域。然而,现有方法采用未标注的任务无关合成图像,缺乏目标检测所需的特定信息,导致性能欠佳。本文提出了一种新颖的面向目标检测网络的任务特定ZSQ框架,该框架包含两个主要阶段。首先,我们引入了一种边界框与类别采样策略,从预训练网络中合成任务特定的校准集,无需任何先验知识即可重建目标位置、大小及类别分布。其次,我们将任务特定训练融入知识蒸馏过程,以恢复量化检测网络的性能。在MS-COCO和Pascal VOC数据集上进行的大量实验验证了本方法的高效性和领先性能。我们的代码已公开于:https://github.com/DFQ-Dojo/dfq-toolkit。
个性化AI系统不仅需要理解用户的偏好,还需洞察这些偏好背后的原因——然而,当前的偏好模型通常将人类判断视为一个黑箱。我们引入了PrefPalette框架,该框架将偏好分解为多个属性维度,并以人类可解释的方式针对不同社交社区的价值进行偏好预测。PrefPalette通过两种方式实现了认知科学中的多属性决策原则:(1) 可扩展的反事实属性合成步骤,通过生成合成训练数据来隔离单个属性的影响(如正式性、幽默感、文化价值观);(2) 基于注意力的偏好建模,学习不同社交社区如何动态权衡这些属性。这一方法超越了聚合偏好建模,捕捉到了驱动人类判断的多样化评估框架。在在线平台Reddit的45个社交社区上评估时,PrefPalette的平均预测准确率比GPT-4o高出46.6%。除了预测性能的提升,PrefPalette还揭示了直观的、社区特定的特征:学术社区重视详尽性和启发性,冲突导向的社区看重讽刺和直接性,而支持型社区则强调同理心。通过建模人类判断的属性中介结构,PrefPalette不仅提供了更优的偏好建模,还带来了透明、可解释的洞察,为开发更值得信赖、价值感知的个性化应用迈出了第一步。
3D高斯泼溅技术以其高保真重建和实时新视角合成而著称,但其缺乏语义理解能力,限制了物体层面的感知。在本研究中,我们提出了ObjectGS,一个具备物体感知能力的框架,它将3D场景重建与语义理解相统一。不同于将场景视为整体,ObjectGS将各个物体建模为局部锚点,这些锚点生成神经高斯分布并共享物体ID,从而实现精确的物体级重建。训练过程中,我们动态地扩展或修剪这些锚点,并优化其特征,同时采用独热编码与分类损失相结合的方式,强化明确的语义约束。通过大量实验,我们证明ObjectGS不仅在开放词汇和全景分割任务上超越了现有最先进方法,还能无缝集成于网格提取和场景编辑等应用之中。项目页面:https://ruijiezhu94.github.io/ObjectGS_page
近期,Zaremba等人证实,在大型专有推理大语言模型(LLMs)中,增加推理时的计算量能提升模型的鲁棒性。本文首先表明,较小规模的开源模型(如DeepSeek R1、Qwen3、Phi-reasoning)通过采用简单的预算强制策略,同样能从推理时扩展中获益。更重要的是,我们揭示并深入探讨了先前研究中的一个隐含假设:中间推理步骤对攻击者是不可见的。通过放宽这一假设,我们发现了一个重要的安全隐患,这一发现既基于直观推理又通过实验验证,表现为一种逆向缩放规律:若中间推理步骤变得明确可访问,增加推理时的计算量反而会持续削弱模型的鲁棒性。最后,我们探讨了即便推理链被隐藏,模型仍易受攻击的实际场景,例如集成了工具推理的模型及高级推理提取攻击。我们的研究共同表明,推理时扩展带来的鲁棒性提升高度依赖于对抗环境与部署情境。我们强烈建议实践者在安全敏感的实际应用中采用推理时扩展前,需仔细权衡这些微妙的利弊关系。
微调大型语言模型(LLMs)可能导致意外的分布外泛化。针对这一问题的标准方法依赖于修改训练数据,例如通过添加数据来更明确地指定预期的泛化方向。然而,这种方法并不总是可行。我们引入了概念消融微调(Concept Ablation Fine-Tuning, CAFT),这是一种利用可解释性工具来控制LLMs在微调过程中如何泛化的技术,无需修改训练数据或使用目标分布的数据。给定一组对应于不希望出现概念的LLM潜在空间方向,CAFT通过在微调期间使用线性投影消融这些概念,从而引导模型远离非预期的泛化。我们成功地将CAFT应用于三个微调任务,包括新兴错位现象,即LLMs在狭窄任务上微调后,对一般性问题给出严重错位的响应。在不改变微调数据的情况下,CAFT将错位响应减少了10倍,同时未降低训练分布上的性能。总体而言,CAFT代表了一种无需修改训练数据即可引导LLM泛化的创新方法。