每日精选AI研究论文及翻译
自约翰·冯·诺依曼与艾伦·图灵以来,计算系统与大脑之间的关系一直是理论先驱们探索的驱动力。像大脑这样均匀、无标度的生物网络,具备强大的特性,包括随时间推移的泛化能力,而这正是机器学习迈向通用推理模型道路上的主要障碍。 我们推出“龙雏”(BDH),一种基于无标度生物启发网络的新型大语言模型架构,该网络由局部交互的神经元粒子构成。BDH在保持类似Transformer性能的同时,结合了坚实的理论基础与内在的可解释性。 BDH是一种实用、高效的最先进注意力机制状态空间序列学习架构。除了作为图模型外,BDH还具备GPU友好的实现形式。它展现出与Transformer相似的扩展规律:实证表明,在相同参数规模(从1000万到10亿)及相同训练数据下,BDH在语言和翻译任务上的表现可与GPT2相媲美。 BDH可视为一种大脑模型。在推理过程中,BDH的工作记忆完全依赖于使用尖峰神经元的赫布学习突触可塑性。我们通过实验证实,在处理语言输入时,每当BDH“听到”或“思考”特定概念,特定的单个突触会增强连接。BDH的神经元交互网络是一个具有重尾度分布的高模块化图。BDH模型在生物学上具有合理性,解释了人类神经元可能用于实现言语的一种机制。 BDH设计注重可解释性。其激活向量稀疏且为正。我们在语言任务中展示了BDH的单义性。状态的可解释性,超越了神经元和模型参数的可解释性,是BDH架构的固有特性。
MCP(模型调用协议)规范了大型语言模型(LLMs)与外部系统的交互方式,为通用智能体奠定了基石。然而,现有的MCP基准测试在范围上仍显局限:它们侧重于读取密集型任务或交互深度有限的任务,未能充分捕捉现实世界工作流程的复杂性与真实性。为填补这一空白,我们提出了MCPMark,一个旨在以更为真实且全面的方式评估MCP应用的基准测试。该测试集由领域专家与AI智能体共同协作创建,包含127项高质量任务。每项任务均始于精心设计的初始状态,并配备有用于自动验证的程序脚本。这些任务要求与环境进行更为丰富多样的交互,涵盖广泛的创建、读取、更新及删除(CRUD)操作。我们采用一个在工具调用循环中运行的最小化智能体框架,对前沿LLMs进行了全面评估。实证结果显示,表现最佳的模型gpt-5-medium仅达到52.56%的pass@1和33.86%的pass^4,而其他广受认可的强模型,如claude-sonnet-4和o3,其pass@1和pass^4分别低于30%和15%。平均而言,LLMs每项任务需执行16.2次操作轮次和17.4次工具调用,远超以往MCP基准测试的数据,凸显了MCPMark作为压力测试的本质。
尽管强化学习(RL)能有效提升视觉语言模型(VLMs)的推理能力,但现有方法仍高度依赖需大量人工构建与验证的数据集,导致训练成本极高,从而限制了VLMs的实际应用。为应对这一挑战,我们提出了Vision-Zero,一个领域无关的框架,通过任意图像对生成的竞争性视觉游戏,实现VLM的自我提升。具体而言,Vision-Zero包含三大特性:(1)策略性自博弈框架:Vision-Zero在“谁是卧底”类游戏中训练VLMs,模型在多个角色间进行策略推理与行动。通过互动游戏,模型无需人工标注即可自主生成训练数据。(2)任意图像生成游戏:与现有游戏化框架不同,Vision-Zero能从任意图像生成游戏,从而增强模型跨领域的推理能力,并展现出对不同任务的强大泛化性。我们利用CLEVR合成场景、图表及真实世界图像三类数据集展示了这一多功能性。(3)可持续性能提升:我们引入了迭代自博弈策略优化(Iterative-SPO),一种新颖的训练算法,交替进行自博弈与带可验证奖励的强化学习(RLVR),缓解了仅自博弈训练中常见的性能瓶颈,实现了长期的持续改进。尽管使用无标签数据,Vision-Zero在推理、图表问答及视觉中心理解任务上均达到了最先进的性能,超越了其他基于标注的方法。模型与代码已发布于https://github.com/wangqinsi1/Vision-Zero。
推理能力已成为大型语言模型(LLMs)的一项关键能力。通过强化学习(RL),尤其是群体相对策略优化(GRPO),这些模型能够解决诸如数学和代码生成等复杂任务。基于这些进展,近期研究致力于将推理能力扩展至视觉语言模型(VLMs),在多种视觉任务中取得了令人瞩目的成果。然而,我们的研究揭示了多模态推理的双重特性:虽然它显著增强了逻辑推理能力,助力解决难题,但也可能逐渐削弱感知基础,导致在原本基础的视觉问题上出现识别失败。通过深入分析,我们将此现象归因于视觉遗忘,即长时间的推理过程使模型逐渐忽视视觉输入。针对这一问题,我们提出了视觉锚定策略优化(VAPO),这是一种简单而有效的方法,旨在明确引导推理过程沿着视觉基础轨迹进行。我们的成果模型VAPO-Thinker-7B显著增强了模型对视觉信息的依赖,并在广泛认可的基准测试中取得了新的最先进成果。项目页面:https://xytian1008.github.io/VAPO/
随着监督微调(SFT)从轻量级的后训练步骤演变为计算密集型阶段,其规模已可与中期训练相媲美,数据效率在预算紧张的情况下对齐大型语言模型(LLMs)变得至关重要。现有的数据剪枝方法存在设计上的割裂:它们要么仅在样本层面操作,要么仅在标记层面单独进行,未能同时优化这两个维度。这种脱节导致了显著的效率低下——高价值样本中可能仍包含冗余标记,而标记层面的剪枝往往丢弃了嵌入在单个示例中的关键指导或校正信号。为解决这一瓶颈,我们引入了误差-不确定性(EU)平面,这是一个诊断框架,能够联合表征训练数据在样本和标记层面的异质效用。基于这一洞见,我们提出了基于象限的调优(Q-Tuning),这是一个统一框架,战略性地协调样本剪枝和标记剪枝。Q-Tuning采用两阶段策略:首先,进行样本级别的筛选,保留富含信息性误解或校准信号的示例;其次,应用非对称标记剪枝策略,利用上下文感知的评分机制,仅从误解样本中修剪不太显著的标记,同时完整保留校准样本。我们的方法在五个多样化基准测试中确立了新的技术标杆。值得注意的是,在SmolLM2-1.7B上,Q-Tuning仅使用原始训练数据的12.5%,就实现了比全数据SFT基线平均提升38%的效果。作为首个动态剪枝方法,Q-Tuning在持续超越全数据训练的同时,为预算受限的LLM SFT提供了实用且可扩展的数据利用最大化蓝图。
尽管大型语言模型(LLMs)在事实性问答任务上展现了强大的性能,它们仍易产生幻觉和不真实的回答,尤其是在任务需求超出其参数化知识范围时。实际上,真实性不仅要求准确性——模型还需识别不确定性,并在不确定时选择弃答,以避免幻觉。这对现有方法构成了根本性挑战:追求准确性的方法往往会加剧幻觉,而鼓励弃答的方法则可能过于保守,牺牲正确答案。这两种极端最终都损害了真实性。在本研究中,我们提出了TruthRL,一个直接优化LLMs真实性的通用强化学习(RL)框架。具体而言,我们采用GRPO实现TruthRL,并设计了一种简单而有效的三元奖励机制,区分正确答案、幻觉和弃答。该机制不仅通过提供正确回答来激励模型减少幻觉,还允许模型在不确定时选择弃答,从而提升真实性。在四个知识密集型基准上的广泛实验表明,与基础RL相比,TruthRL显著减少了28.9%的幻觉,并提升了21.1%的真实性,在不同骨干模型(如Qwen、Llama)及检索与非检索设置下均取得了一致性提升。深入的消融研究显示,基于准确性的传统方法,如监督微调或使用二元奖励的RL,难以在事实正确性与不确定性之间取得平衡。相比之下,我们提出的以真实性为导向的TruthRL在准确性和真实性上均表现出色,强调了学习目标设计对于开发真实LLMs的重要性。
尽管大型语言模型(LLMs)仅通过文本进行训练,却意外地形成了丰富的视觉先验知识。这些先验知识使得在相对少量的多模态数据下,能够解锁潜在的视觉能力以应对视觉任务,甚至在某些情况下,无需见过任何图像即可执行视觉任务。通过系统性分析,我们发现视觉先验——即在语言预训练过程中获得的关于视觉世界的隐性、涌现性知识——由可分离的感知与推理先验构成,各自具有独特的扩展趋势与来源。研究表明,LLM的潜在视觉推理能力主要通过对推理密集型数据(如代码、数学、学术文献)的预训练而发展,并呈渐进式扩展。这种从语言预训练中获得的推理先验具有可迁移性,并普遍适用于视觉推理。相比之下,感知先验则更广泛地源自多样化的语料库,且感知能力对视觉编码器及视觉指令调优数据更为敏感。同时,描述视觉世界的文本虽至关重要,但其对性能的影响迅速达到饱和。基于这些洞见,我们提出了一种以数据为中心的预训练方法,用于培养具备视觉意识的LLMs,并在1T令牌规模的预训练中验证了其有效性。我们的发现建立在超过100项控制实验和消耗50万GPU小时的基础上,涵盖了从LLM预训练到视觉对齐及监督式多模态微调的全流程MLLM构建,跨越五种模型规模、广泛的数据类别与混合方式,以及多种适应设置。除了主要发现外,我们还提出并验证了若干假设,并引入了多层次存在基准(MLE-Bench)。整体而言,这项工作为有意从语言预训练中培育视觉先验提供了新途径,为下一代多模态LLMs的发展铺平了道路。
我们推出DC-VideoGen,一种用于高效视频生成的后训练加速框架。DC-VideoGen可应用于任何预训练的视频扩散模型,通过轻量级微调将其适配至深度压缩的潜在空间,从而提升效率。该框架基于两大创新:(i) 深度压缩视频自动编码器,采用新颖的块因果时序设计,在保持重建质量及对更长视频泛化能力的同时,实现了32倍/64倍的空间压缩和4倍的时间压缩;(ii) AE-Adapt-V,一种稳健的适应策略,能够快速且稳定地将预训练模型迁移至新的潜在空间。使用DC-VideoGen对预训练的Wan-2.1-14B模型进行适配,仅需在NVIDIA H100 GPU上耗费10个GPU日。加速后的模型在不牺牲质量的前提下,推理延迟最多降低14.8倍,并进一步支持在单GPU上生成2160x3840分辨率的视频。代码地址:https://github.com/dc-ai-projects/DC-VideoGen。
我们推出OceanGym,这是首个面向海洋水下具身智能体的综合基准平台,旨在推动AI在最具挑战性的现实环境之一中的发展。与陆地或空中领域不同,水下环境带来了极端的感知与决策难题,包括低能见度、动态洋流等,使得智能体的有效部署异常困难。OceanGym囊括了八个真实任务领域,并构建了一个由多模态大语言模型(MLLMs)驱动的统一智能体框架,该框架集成了感知、记忆与序列决策能力。智能体需理解光学与声呐数据,在复杂环境中自主探索,并在这些严苛条件下完成长期目标。大量实验表明,当前最先进的MLLM驱动智能体与人类专家之间仍存在显著差距,凸显了海洋水下环境中感知、规划及适应性的持续挑战。通过提供高保真、精心设计的平台,OceanGym为开发鲁棒的具身AI及将这些能力迁移至现实世界的自主海洋水下航行器建立了试验场,标志着向能够在地球最后未探索疆域之一中运作的智能体迈出了决定性的一步。代码与数据可在https://github.com/OceanGPT/OceanGym获取。
带有可验证奖励的强化学习(RLVR)能有效解决复杂任务,但在训练过程中需要极长的上下文长度,导致巨大的计算成本。虽然多阶段训练可以部分缓解这一问题,但若从过短的上下文开始,往往会造成不可逆的性能下降,最终无法显著降低整体训练计算量。本文提出了一种简单而有效的RLVR改进方法——**无思维策略初始化(TFPI)**,它在长思维链(CoT)蒸馏与标准RLVR之间架起桥梁。TFPI采用了一种简单的*无思维*操作,通过直接*</think>*附加明确舍弃思维内容,以减少推理时的令牌使用。使用*无思维*调整后的输入进行训练,不仅提升了性能,还降低了令牌消耗,即便在原有的慢速思维模式下也是如此。多项基准测试的广泛实验表明,TFPI加速了RL的收敛,达到了更高的性能上限,并生成了更具令牌效率的推理模型,而无需专门的奖励机制或复杂的训练设计。仅使用TFPI,我们便训练了一个40亿参数的模型,在AIME24上达到89.0%的准确率,在LiveCodeBench上达到65.5%,且消耗的H20小时数不足4千。
基于大语言模型(LLM)的评判利用强大的LLM高效评估候选内容并提供评分。然而,LLM生成评判中固有的偏见和脆弱性引发了担忧,尤其在学术同行评审等敏感场景中,亟需对其进行区分。在本研究中,我们提出并形式化了评判检测任务,系统性地探究了LLM生成评判的可检测性。与LLM生成文本检测不同,评判检测仅依赖于评分和候选内容,这反映了现实场景中检测过程往往缺乏文本反馈的情况。初步分析表明,现有LLM生成文本检测方法因无法捕捉评分与候选内容间的交互——这是有效评判检测的关键——而表现不佳。受此启发,我们引入了J-Detector,一个轻量级且透明的神经检测器,通过显式提取的语言特征和LLM增强特征,将LLM评判者的偏见与候选内容属性相链接,以实现精准检测。跨多样数据集的实验验证了J-Detector的有效性,并展示了其可解释性如何量化LLM评判者的偏见。最后,我们分析了影响LLM生成评判可检测性的关键因素,并在实际场景中验证了评判检测的实用价值。
大型语言模型(LLMs)在测试阶段扩展时的可靠性,通常通过外部验证器或奖励模型来评估,这些工具能够区分正确的推理与存在逻辑缺陷的过程。以往的研究普遍认为,过程奖励模型(PRMs)——对每个中间推理步骤进行评分——优于仅评估最终答案的结果奖励模型(ORMs)。这一观点主要基于数学相关狭窄领域的证据。我们首次对四种奖励模型变体进行了统一评估,包括判别式ORMs和PRMs(\DisORM, \DisPRM)以及生成式ORMs和PRMs(\GenORM, \GenPRM),覆盖了14个多样化领域。与普遍看法相反,我们发现:(i) \DisORM与\DisPRM表现相当,(ii) \GenPRM并不具备竞争力,以及(iii) 总体而言,\GenORM最为稳健,在所有测试领域中均展现出显著且一致的性能提升。我们将此归因于PRM式的逐步评分方法,它继承了LLM自动标注带来的标签噪声,并且在评估长推理轨迹(包括涉及自我修正的推理)时存在困难。我们的理论分析表明,随着推理长度的增加,逐步聚合会放大错误,而我们的实证观察也证实了这一效应。这些发现挑战了精细监督总是更优的普遍假设,并支持在多领域部署中采用生成式结果验证。我们公开了代码、数据集和检查点,以促进未来在多领域设置中的研究,访问地址为:https://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}}。
全景图像拥有完整的视场角(360°×180°),相较于透视图像提供了更为全面的视觉描述。得益于这一特性,全景深度估计在三维视觉领域正获得越来越多的关注。然而,由于全景数据的稀缺,以往的方法多局限于域内场景,导致零样本泛化能力较差。此外,由于全景图像固有的球面畸变,许多方法依赖于透视分割(如立方体贴图),这导致了效率的次优化。为应对这些挑战,我们提出了DA²:任意方向深度估计,一种精确、零样本可泛化且完全端到端的全景深度估计器。具体而言,为扩大全景数据规模,我们引入了一个数据整理引擎,用于从透视图像生成高质量的全景深度数据,并创建了约543K对全景RGB-深度数据,使总量达到约607K。为进一步缓解球面畸变,我们提出了SphereViT,它显式利用球面坐标来强化全景图像特征中的球面几何一致性,从而提升了性能。在多个数据集上的全面基准测试清晰地展示了DA²的领先性能,在AbsRel指标上平均比最强的零样本基线提升了38%。令人惊讶的是,DA²甚至超越了先前的域内方法,凸显了其卓越的零样本泛化能力。此外,作为端到端解决方案,DA²相比基于融合的方法展现出更高的效率。代码及整理的全景数据将一并公开。项目页面:https://depth-any-in-any-dir.github.io/。
现代大型推理模型的卓越能力主要通过在训练后采用监督微调和强化学习等技术得以释放。然而,这些改进背后的架构机制在很大程度上仍不透明。在本研究中,我们运用电路分析技术揭示,针对复杂推理的训练后处理催生了一类新型、功能专一的注意力头。这些注意力头共同支撑起结构化的推理与计算。通过对Qwen系列模型与DeepSeek蒸馏模型的对比分析,我们发现这些新兴注意力头在不同训练策略下呈现出不同的演化路径。蒸馏与监督微调促使稳定的推理头逐步累积;而群体相对策略优化则处于一种动态搜索模式:相对较少的注意力头被迭代激活、评估与剪枝,其存续紧密跟随任务奖励信号的波动。此外,我们发现可控的“思考开关”模型并不具备专门的思考头。相反,关闭显式推理会触发一组更广泛但效率较低的补偿性注意力头。通过消融实验与定性分析,我们将这些电路层面的动态与一个关键的性能权衡联系起来:增强的注意力头虽能助力解决复杂问题,但也可能引入过度思考的失败模式,如在简单任务上出现计算错误或逻辑循环。这些发现将电路层面的动态与宏观性能表现相连接,揭示了一个内在矛盾:复杂推理的获得往往以基础计算能力的削弱为代价。更广泛而言,我们的研究为未来训练策略的设计指明了方向,强调在开发有效推理策略的同时,需确保执行的可靠性与无差错性。
随着扩散模型的进步,图像到视频生成已取得显著进展,然而生成具有真实运动感的视频仍极具挑战。这一难点源于准确建模运动的复杂性,包括捕捉物理约束、物体交互以及难以跨多样场景泛化的领域特定动态。为此,我们提出了MotionRAG,一个检索增强框架,通过上下文感知运动适应(CAMA)从相关参考视频中适配运动先验,从而提升运动真实感。关键技术创新包括:(i) 基于检索的管道,利用视频编码器和专用重采样器提取高层运动特征,以蒸馏语义运动表示;(ii) 通过因果Transformer架构实现的上下文学习运动适应方法;(iii) 基于注意力的运动注入适配器,无缝整合转移的运动特征到预训练的视频扩散模型中。大量实验表明,我们的方法在多个领域和多种基础模型上均实现了显著改进,且推理时计算开销极小。此外,模块化设计使得仅需更新检索数据库即可实现对新领域的零样本泛化,无需重新训练任何组件。本研究通过有效检索和转移运动先验,增强了视频生成系统的核心能力,促进了真实运动动态的合成。
随着基于大语言模型(LLM)的智能体日益融入现实生活场景,现有基准测试难以全面衡量其在处理海量信息、整合多样化资源及应对动态用户交互方面的内在复杂性。为此,我们推出了VitaBench,一个旨在评估智能体在真实世界情境下执行多功能交互任务的挑战性基准。VitaBench汲取了外卖配送、店内消费及在线旅游服务等日常应用场景,为智能体构建了迄今为止最为复杂的生活服务模拟环境,包含66种工具。通过一个摒弃领域特定策略的框架,我们实现了这些场景与工具的灵活组合,生成了100项跨场景任务(主要结果)和300项单一场景任务。每项任务均源自多个真实用户请求,要求智能体跨越时空维度进行推理,运用复杂工具集,主动澄清模糊指令,并在多轮对话中追踪用户意图的变化。此外,我们提出了一种基于评分标准的滑动窗口评估器,能够在复杂环境及随机交互中,对多样化的解决路径进行稳健评估。我们的全面评估显示,即便是最先进的模型,在跨场景任务上的成功率也仅为30%,而在其他任务上则不足50%。总体而言,我们相信VitaBench将成为推动AI智能体在实际应用中发展的重要资源。代码、数据集及排行榜可访问https://vitabench.github.io/获取。
Muon优化器在训练大规模语言模型(LLMs)时始终比Adam更快,但其成功背后的机制尚不明确。本文通过联想记忆的视角揭示了这一机制。通过消融Muon优化的Transformer组件,我们发现LLMs的联想记忆参数,即Value和Output(VO)注意力权重及前馈网络(FFNs),是Muon优越性的主要贡献者。基于这一联想记忆视角,我们进一步解释了Muon在现实世界语料库上的优势,这些语料库本质上具有重尾特性:少数类别(尾部类别)的出现频率远低于其他类别。Muon的优越性通过两个关键属性得以解释:(i)其更新规则始终产生比Adam更各向同性的奇异谱;(ii)在重尾数据上,它比Adam更有效地优化尾部类别。除实证证据外,我们通过分析类别不平衡数据下的单层联想记忆模型,从理论上验证了这些发现。我们证明,无论特征嵌入如何,Muon始终能在各类别间实现均衡学习,而Adam则可能因嵌入特性导致学习误差的巨大差异。总之,我们的实证观察与理论分析揭示了Muon的核心优势:其更新规则与线性联想记忆的外积结构相一致,使得在重尾分布中对尾部类别的学习比Adam更为均衡和有效。
扩散大语言模型(dLLMs)作为自回归生成的一种有前景的替代方案,近期在研究界引起了广泛关注,其优势在于并行令牌预测和更低的推理延迟。然而,它们的并行解码潜力在很大程度上仍未得到充分探索,因为现有的开源模型仍需接近令牌长度的解码步骤来确保性能。为此,我们提出了dParallel,一种简单而有效的方法,旨在释放dLLMs的固有并行性以实现快速采样。我们发现,并行解码的关键瓶颈在于掩码令牌的序列确定性收敛。基于这一洞察,我们引入了方法的核心:确定性强制蒸馏,这是一种新颖的训练策略,它通过蒸馏模型使其遵循原始采样轨迹,同时强制模型更快且并行地达到对掩码令牌的高确定性。跨多个基准的广泛实验表明,我们的方法能显著减少解码步骤,同时保持性能。将dParallel应用于LLaDA-8B-Instruct模型时,在GSM8K数据集上,解码步骤从256减少到30,实现了8.5倍的加速且无性能损失。在MBPP基准测试中,解码步骤从256降至24,带来了10.5倍的加速,同时保持了准确性。我们的代码可在https://github.com/czg1225/dParallel获取。
确保扩散生成图像与输入提示之间的精确多模态对齐一直是一个长期存在的挑战。早期工作通过高质量偏好数据微调扩散权重,但这类数据往往有限且难以扩展。最近的基于编辑的方法进一步优化生成图像的局部区域,但可能会影响整体图像质量。在本研究中,我们提出了隐式多模态引导(IMG),一种无需额外数据或编辑操作的新型再生成式多模态对齐框架。具体而言,给定生成图像及其提示,IMG首先利用多模态大语言模型(MLLM)识别不对齐之处;其次引入隐式对齐器,通过操控扩散条件特征来减少不对齐并实现再生成;最后将对齐目标转化为可训练的迭代更新偏好目标。在SDXL、SDXL-DPO和FLUX上的广泛定性与定量评估表明,IMG优于现有的对齐方法。此外,IMG作为一种灵活的即插即用适配器,能够无缝增强基于微调的对齐方法。我们的代码将发布于https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment。
强化学习(Reinforcement Learning, RL)在提升大型语言模型(Large Language Models, LLMs)的推理能力方面展现了显著成效。相较于基于结果的RL,过程监督强化学习(Process-Supervised RL, PSRL)作为一种更为有效的范式崭露头角。然而,现有的PSRL方法在探索效率上存在局限,无论是分支位置的选择还是采样策略。本文提出了一种新颖的PSRL框架——AttnRL,旨在为推理模型实现高效探索。基于初步观察,即高注意力分数步骤与推理行为密切相关,我们建议从高价值位置进行分支。此外,我们开发了一种自适应采样策略,该策略综合考虑问题难度及历史批次大小,确保整个训练批次保持非零优势值。为进一步提升采样效率,我们为PSRL设计了一步离策略训练流程。在多个具有挑战性的数学推理基准上的广泛实验表明,我们的方法在性能、采样及训练效率方面均优于现有方法。
人类能否识别AI生成的(虚假)视频并给出具体依据? 尽管视频生成模型发展迅速,但一个关键维度——即人类能否在生成的视频中检测到深度伪造的痕迹,也就是那些揭示视频为机器生成的空间时间视觉伪影——在很大程度上被忽视了。我们推出了DeeptraceReward,这是首个细粒度、空间和时间感知的基准,它标注了人类感知到的视频生成奖励中的虚假痕迹。该数据集包含了对3.3K高质量生成视频的4.3K详细标注。每个标注都提供了自然语言解释,精确定位了包含感知痕迹的边界框区域,并标记了精确的开始和结束时间戳。我们将这些标注整合为9大类导致人类识别视频为AI生成的深度伪造痕迹,并训练多模态语言模型(LMs)作为奖励模型,以模仿人类的判断和定位。在DeeptraceReward上,我们的7B奖励模型在虚假线索识别、定位和解释方面平均比GPT-5高出34.7%。有趣的是,我们观察到一个一致的难度梯度:二分类的虚假与真实识别比细粒度的深度伪造痕迹检测要容易得多;在后者中,从自然语言解释(最容易)到空间定位,再到时间标注(最难),性能逐渐下降。通过突出人类感知的深度伪造痕迹,DeeptraceReward为社会意识和可信的视频生成提供了一个严格的测试平台和训练信号。
我们研究了代码到指标的回归任务:预测代码执行时的数值结果,这一任务因编程语言的开放性而极具挑战性。以往的方法依赖于繁重且领域特定的特征工程,而我们证明,一个统一的回归语言模型(RLM)能够直接从文本中同时预测:(i) 跨Python和C++等多种高级语言的代码内存占用,(ii) Triton GPU内核的延迟,以及(iii) 以ONNX格式表示的已训练神经网络的准确性和速度。具体而言,一个相对较小的、基于T5Gemma初始化的300M参数RLM,在APPS竞赛编程提交上获得了超过0.9的斯皮尔曼等级相关系数,且单一模型在CodeNet的17种不同语言上平均斯皮尔曼等级相关系数超过0.5。此外,RLM在五个先前由图神经网络主导的经典NAS设计空间上,取得了最高的平均肯德尔-τ系数0.46,并能同时预测多种硬件平台上的架构延迟。
尽管以往的AI科学家系统能够产生新颖的发现,但它们往往缺乏聚焦,难以针对人类定义的紧迫挑战做出具有科学价值的贡献。我们推出了DeepScientist系统,旨在通过执行目标导向、完全自主的科学发现过程,跨越长达数月的时间线,来克服这一局限。该系统将发现过程形式化为一个贝叶斯优化问题,并通过“假设、验证、分析”这一层次化评估流程加以实施。借助累积的发现记忆库,这一循环智能地平衡了对新假设的探索与利用,有选择地将最有前景的发现提升至更高保真度的验证层级。在消耗超过20,000 GPU小时的计算资源后,该系统生成了约5,000个独特的科学构想,并实验验证了其中约1,100个,最终在三个前沿AI任务上分别以183.7%、1.9%和7.9%的幅度超越了人类设计的最先进(SOTA)方法。这项研究首次大规模证明了AI在科学任务上逐步超越人类SOTA的发现能力,产出了真正推动科学发现前沿的有价值成果。为促进这一过程的进一步研究,我们将在https://github.com/ResearAI/DeepScientist/开源所有实验日志和系统代码。
大型语言模型(LLM)代理受限于有限的上下文窗口,因此需要外部记忆系统以实现长期信息理解。当前增强记忆的代理通常依赖于预定义的指令和工具进行记忆更新。然而,随着记忆系统日益复杂,语言模型可能缺乏确定哪些信息应存储、如何组织以及何时更新的能力,这导致了记忆构建不理想和信息丢失的问题。为此,我们提出了Mem-alpha,一个通过交互与反馈训练代理有效管理复杂记忆系统的强化学习框架。我们还构建了一个专门的训练数据集,涵盖多样化的多轮交互模式,并配以旨在教授有效记忆管理的全面评估问题。在训练过程中,代理处理序列化的信息块,学习提取并存储相关内容,随后更新记忆系统。奖励信号源自于基于完整交互历史的下游问答准确性,直接优化记忆构建。为了展示我们训练框架的有效性,我们设计了一个包含核心、情景和语义组件的记忆架构,配备了多种记忆操作工具。实证评估表明,Mem-alpha相较于现有增强记忆的代理基线取得了显著提升。尽管仅在最大长度为30k个标记的实例上进行训练,我们的代理展现出了对超过400k个标记序列的卓越泛化能力,是训练长度的13倍以上,充分体现了Mem-alpha的鲁棒性。
现代循环神经网络因其线性时间复杂度,已成为三维重建领域的有力竞争者。然而,当应用超出训练上下文长度时,其性能显著下降,显示出长度泛化能力的局限。在本研究中,我们从测试时训练的角度重新审视三维重建基础模型,将其设计框架化为一个在线学习问题。基于这一视角,我们利用记忆状态与输入观测之间的对齐置信度,推导出记忆更新的闭式学习率,以在保留历史信息与适应新观测之间取得平衡。这一无需额外训练的策略,命名为TTT3R,大幅提升了长度泛化能力,在全局姿态估计上较基线实现了两倍的提升,同时以20帧每秒的速度运行,仅需6GB GPU内存即可处理数千张图像。代码可在https://rover-xingyu.github.io/TTT3R获取。
视听语音分离(AVSS)方法通过利用视觉线索来提取目标语音,在嘈杂的声学环境中展现了卓越的分离质量。然而,这些方法通常涉及大量参数且计算成本高昂,这在许多应用中难以接受,尤其是当语音分离仅作为后续语音处理的预处理步骤时。为解决这一问题,我们提出了一种高效的AVSS方法,命名为Dolphin。在视觉特征提取方面,我们开发了DP-LipCoder,一种双路径轻量级视频编码器,将唇部运动转化为离散的音频对齐语义标记。在音频分离方面,我们构建了一个轻量级的编码-解码分离器,其中每一层都集成了全局-局部注意力(GLA)模块,以高效捕捉多尺度依赖关系。在三个基准数据集上的实验表明,Dolphin不仅在分离质量上超越了当前最先进的(SOTA)模型,还在效率上实现了显著提升:参数数量减少超过50%,MACs降低超过2.4倍,GPU推理速度加快超过6倍。这些结果表明,Dolphin为现实世界中的高性能AVSS提供了一个实用且可部署的解决方案。我们的代码和演示页面已公开于http://cslikai.cn/Dolphin/。
开放大型语言模型(LLMs)的蓬勃发展正在人工智能(AI)领域催生一个充满活力的研究与创新生态系统。然而,关于开放LLMs在公开发布前后所采用的协作方式尚未得到全面研究,这限制了我们理解开放LLM项目如何启动、组织与治理,以及存在哪些机会进一步促进这一生态系统的发展。我们通过探索性分析,深入研究了开放LLMs开发与再利用生命周期中的开放协作,基于对来自北美、欧洲、非洲和亚洲的草根项目、研究机构、初创企业及大型科技公司的14个开放LLM开发者的半结构化访谈,填补了这一空白。我们为研究和实践做出了三项关键贡献。首先,开放LLM项目中的协作远不止于模型本身,还包括数据集、基准测试、开源框架、排行榜、知识共享与讨论论坛以及计算资源合作等。其次,开放LLM开发者拥有多样化的社会、经济和技术动机,从普及AI访问、推动开放科学到构建区域生态系统及扩展语言代表性。再次,所调查的开放LLM项目展现出五种不同的组织模式,从单一公司项目到非营利资助的草根项目不等,这些模式在控制集中度和社区参与策略上各有特色,贯穿于开放LLM的整个生命周期。最后,我们为致力于支持全球社区构建更加开放的AI未来的利益相关者提供了实用建议。
构建能够通过与外部工具交互来扩展能力的大型语言模型代理,代表了人工智能研究和应用的新前沿。本文介绍了InfoAgent,这是一个由创新的数据合成流程和协调的网页搜索工具驱动的深度研究代理。为了构建具有挑战性且难以找到的查询,我们构建了实体树并应用子树采样与实体模糊化技术,系统地提升问题难度。与以往严重依赖商业搜索工具的工作不同,我们开发了专用的自托管搜索基础设施,增强了代理环境的透明度,并促进了代理能力的进一步提升。我们通过衡量正确回答问题所需的平均工具调用次数来评估数据管道的有效性,并展示了我们的代理在配备这些工具时表现更优。InfoAgent基于Qwen3-14B进行后训练,采用两阶段策略:冷启动监督微调以培养长期搜索行为,随后通过强化学习显著提升推理驱动的工具使用能力。采用我们的方法,InfoAgent在BrowseComp上达到15.3%的准确率,在BrowseComp-ZH上达到29.2%,在Xbench-DS上达到40.4%,超越了如WebSailor-72B和DeepDive-32B等先前的开源深度研究代理。
在线对齐(如GRPO)通常比离线对齐(如DPO)表现更优——但原因何在?借鉴行为经济学中的前景理论,我们提出了一种以人为中心的解释。我们证明,在线策略采样能更好地近似人类感知的模型输出分布,而PPO/GRPO风格的裁剪——最初引入是为了稳定训练——实际上恢复了人类在概率感知上的偏差。从这个意义上讲,PPO/GRPO已然充当了感知损失的角色。我们的理论进一步表明,在线/离线的二分法本身对于最大化人类效用而言是偶然的,因为我们可以通过以模仿人类感知的方式选择性地训练任何数据来达到相同效果,而无需局限于在线策略数据。这样做将使我们能够在不牺牲性能的前提下,更快、更经济、更灵活地进行后训练。为此,我们提出了一种设计模式,明确将概率的感知失真纳入DPO/KTO/GRPO等目标函数中,创造出它们的“人性化”变体。令人惊讶的是,我们发现这些“人性化”变体,即便使用离线非策略数据进行训练,也能在可验证和不可验证任务上匹敌其在线版本的表现。
大语言模型(LLM)的安全性是实现其大规模部署所面临的最紧迫挑战之一。尽管多数研究与全球讨论聚焦于通用性危害,如模型协助用户自我伤害或伤害他人,企业却面临一个更为根本的关切:基于LLM的智能体在其预定应用场景下是否安全。为此,我们引入了操作安全性这一概念,定义为LLM在执行特定任务时,能够恰当地接受或拒绝用户查询的能力。我们进一步提出了OffTopicEval,一套用于评估操作安全性的测试集与基准,既涵盖一般情况,也针对具体智能体应用场景。通过对包含20个开源权重LLM的六个模型家族进行评估,我们发现尽管各模型表现参差不齐,但所有模型在操作安全性上均存在显著不足。即便是表现最佳的模型——Qwen-3(235B)达到77.77%,Mistral(24B)达到79.96%——也远未达到可靠的操作安全标准,而GPT系列模型稳定在62%至73%之间,Phi系列仅获得中等分数(48%至70%),Gemma和Llama-3则分别跌至39.53%和23.84%。鉴于操作安全性是模型对齐的核心问题,为抑制这些失败案例,我们提出了基于提示的引导方法:查询基础化(Q-ground)和系统提示基础化(P-ground),它们显著提升了模型对异常查询的拒绝能力。Q-ground带来了高达23%的稳定增益,而P-ground效果更为显著,使Llama-3.3(70B)提升了41%,Qwen-3(30B)提升了27%。这些结果不仅凸显了操作安全性干预的迫切需求,也展示了基于提示的引导作为迈向更可靠LLM智能体的第一步所蕴含的潜力。
大型语言模型(LLM)提供商常以最大上下文窗口尺寸为傲。为检验上下文窗口在实际应用中的表现,我们采取了以下步骤:1)定义了最大有效上下文窗口的概念;2)制定了一套测试方法,评估不同大小上下文窗口及各类问题上的效能;3)建立了一个标准化方式,用以比较模型在逐步增大上下文窗口尺寸时的效能,直至发现失效点。我们收集了跨越多个模型的数十万数据点,发现报告的最大上下文窗口(MCW)尺寸与最大有效上下文窗口(MECW)尺寸之间存在显著差异。研究结果表明,MECW不仅与MCW大相径庭,而且还会根据问题类型发生变化。测试组中几款顶尖模型在上下文仅有100个标记时便告失败;大多数模型在上下文达到1000个标记时,准确率已严重下降。所有模型的实际表现均远未达到其最大上下文窗口,差距高达99%。我们的数据揭示了最大有效上下文窗口会随所提供问题类型而变动,为如何提升模型准确率、降低模型幻觉率提供了明确且可操作的洞见。
在当前的视觉语言模型(VLMs)中,基础的视觉理解问题是否真的已被解决?我们推出了VisualOverload,这是一个略有不同的视觉问答(VQA)基准测试,包含2,720个问答对,并配有私有的真实答案。与以往通常关注近乎全局图像理解的VQA数据集不同,VisualOverload挑战模型在密集(或过载)场景中执行简单、无需知识的视觉任务。我们的数据集由高分辨率的公共领域绘画扫描组成,这些画作中充满了众多人物、动作以及展开的副情节,背景细节丰富。我们手动为这些图像标注了涵盖六类任务的提问,以深入探究对场景的全面理解。我们假设,当前的基准测试高估了VLMs的表现,对细节的编码与推理对它们而言仍是一项挑战,尤其是在面对密集场景时。确实,我们观察到,在测试的37个模型中,即便是表现最佳的模型(o3)在我们最难的测试集上仅达到19.6%的准确率,所有问题上的总体准确率为69.5%。除了全面的评估外,我们还通过错误分析补充了基准测试,揭示了多种失败模式,包括计数能力不足、OCR失败以及在复杂任务下显著的逻辑不一致性。总之,VisualOverload揭示了当前视觉模型中的关键差距,并为社区开发更优模型提供了重要资源。 基准测试链接:http://paulgavrikov.github.io/visualoverload
近期强化学习(RL)方法显著提升了大型语言模型(LLMs)的规划能力,但其有效性的理论基础仍不明确。本研究通过一种可处理的基于图的抽象模型,探讨了RL的优势与局限,重点关注策略梯度(PG)和Q学习方法。我们的理论分析表明,监督微调(SFT)可能引入基于共现的伪解,而RL则主要通过探索实现正确规划,凸显了探索在促进更好泛化中的关键作用。然而,我们也发现PG存在多样性崩溃问题,即训练过程中输出多样性下降,甚至在达到完美准确率后依然持续。相比之下,Q学习具备两大优势:离策略学习及收敛时的多样性保持。我们进一步证明,为防止Q学习中的奖励欺骗,精心设计奖励机制是必要的。最后,将我们的框架应用于现实世界规划基准Blocksworld,我们证实了这些行为在实际中的显现。
我们推出了语音推理能力评估基准(VERA),这是一个在实时对话约束下评估语音交互系统推理能力的标准。VERA包含2,931个源自现有文本基准的语音原生场景,分为五个领域(数学、网络、科学、长上下文、事实)。每个项目均针对语音交互进行了适配,同时保留了推理难度。VERA支持在模型家族内直接进行文本与语音的对比,并有助于分析架构选择如何影响可靠性。我们评估了12个当代语音系统,并与强大的文本基线进行了比较,观察到显著且一致的模态差距:在竞赛数学领域,领先的文本模型准确率达到74.8%,而其语音对应模型仅为6.1%;跨领域宏观平均,最佳文本模型准确率为54.0%,而语音模型仅为11.3%。延迟-准确性分析揭示了一个低延迟平台期,快速语音系统准确率集中在约10%,而要接近文本性能则需牺牲实时交互。诊断实验表明,常见的缓解措施效果有限。增加“思考时间”带来的提升微乎其微;将推理与叙述分离的解耦级联策略虽提高了准确性,但仍远不及文本水平,并引入了特有的基础/一致性错误。失败分析进一步揭示了原生流式、端到端及级联设计之间不同的错误特征。VERA为解耦思考与说话的架构提供了可复现的测试平台和针对性诊断,为衡量向既流畅又推理可靠的实时语音助手迈进提供了原则性方法。
开发能够有效与图形用户界面(GUI)交互的自主代理仍是一个具有挑战性的开放性问题,尤其对于小型设备端模型而言。本文中,我们介绍了Ferret-UI Lite,一个紧凑的端到端GUI代理,能够在包括移动、网页和桌面在内的多种平台上运行。通过采用针对小型模型优化的技术,我们构建了3B参数的Ferret-UI Lite代理,方法包括:从真实与合成来源中精选多样化的GUI数据混合,通过思维链推理和视觉工具使用增强推理时性能,以及利用设计奖励进行强化学习。Ferret-UI Lite在与其他小型GUI代理的竞争中展现了不俗的性能。在GUI定位任务中,Ferret-UI Lite在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G基准测试中分别取得了91.6%、53.3%和61.2%的得分。在GUI导航方面,Ferret-UI Lite在AndroidWorld和OSWorld上的成功率分别达到了28.0%和19.8%。我们分享了开发紧凑型设备端GUI代理的方法与经验教训。
jina-reranker-v3 是一款拥有 0.6B 参数的多语言文档重排序模型,它引入了一种新颖的“最后但非延迟交互”机制。与 ColBERT 等延迟交互模型不同,后者先进行独立编码再进行多向量匹配,而我们的方法则在同一上下文窗口内对查询和文档执行因果自注意力,从而在从每个文档的最后一个令牌提取上下文嵌入之前,实现丰富的跨文档交互。这一紧凑架构在 BEIR 基准测试中取得了 61.94 nDCG@10 的顶尖性能,同时其规模仅为生成式列表重排序模型的十分之一。
大型语言模型(LLMs)采用多轮交互作为完成复杂任务的基本范式。然而,在长时间交互中,其性能往往下降,因为它们通常是在静态的单轮数据上训练的,这限制了它们适应实时用户反馈的能力。为解决这一局限,我们首先提出了一种新范式:多轮交互中的测试时策略适应(T2PAM),它利用当前交互中的用户反馈作为奖励信号,估计与用户偏好一致的潜在最优策略,然后更新一小部分参数以引导模型朝向该策略,最终实现高效的对话中自我修正。接着,我们引入了最优参考单步适应(ROSA),一种轻量级算法,将T2PAM付诸实践。ROSA通过一次高效的更新步骤,引导模型参数向理论最优策略靠拢,避免了代价高昂的基于梯度的迭代优化,并最小化了计算开销。我们提供了严格的理论分析,确保随着交互次数的增加,ROSA的策略会收敛至用户偏好。在具有挑战性的基准测试上的广泛实验表明,ROSA在任务效果和效率上均取得了显著提升。
大型语言模型在强化学习(RL)中表现出色,但充分释放这一潜力需要一个中期训练阶段。一个有效的中期训练阶段应识别出一组紧凑的有用动作,并通过在线RL实现快速选择。我们通过提出首个关于中期训练如何塑造后期训练的理论结果,将这一直觉形式化:它刻画了一个动作子空间,该空间最小化剪枝带来的价值近似误差以及后续规划中的RL误差。我们的分析揭示了中期训练有效性的两个关键决定因素:剪枝效率,它塑造了初始RL策略的先验;以及其对RL收敛的影响,这决定了该策略通过在线交互可改进的程度。这些结果表明,当决策空间紧凑且有效视野较短时,中期训练最为有效,强调了在动作抽象空间而非原始动作空间操作的重要性。基于这些洞见,我们提出了“推理作为动作抽象”(RA3),一种可扩展的中期训练算法。具体而言,我们推导出一个序列变分下界,并通过RL迭代发现时间上一致的潜在结构,随后在自举数据上进行微调,来优化该下界。代码生成任务的实验验证了我们方法的有效性。在多个基础模型上,RA3在HumanEval和MBPP上的平均性能分别比基础模型和下一词预测基线提高了8分和4分。此外,RA3在HumanEval+、MBPP+、LiveCodeBench和Codeforces上的RLVR中实现了更快的收敛速度和更高的渐近性能。
KV缓存压缩技术承诺在性能损失可忽略的前提下提升吞吐量与效率。尽管吞吐量的提升毋庸置疑,且近期文献确实表明在特定基准测试中性能下降微乎其微,但在多指令提示等现实场景下,压缩带来的影响尚未得到充分研究。本文中,我们指出了实践者在部署采用KV缓存压缩的大型语言模型(LLMs)时应注意的几个潜在问题。尤为重要的是,我们发现某些指令在压缩后性能急剧下降,导致LLM几乎完全忽略这些指令。作为这一现象的实际例证,我们以系统提示泄露为案例,实证展示了压缩对泄露及指令遵循的普遍影响。我们揭示了影响提示泄露的几个关键因素:压缩方法、指令顺序以及KV淘汰偏好。随后,我们提出了对KV缓存淘汰策略的简单调整,旨在减轻这些因素的影响,从而提升多指令任务的整体表现。
近期实证研究探讨了在测试阶段继续针对特定任务训练模型的想法,即测试时训练(TTT),并发现其能显著提升性能。然而,对于TTT为何及何时有效,目前理解尚浅。早期的解释多集中于观察到TTT在应用于分布外适应或使用特权数据时可能有所帮助。但随着基础模型规模的扩大,大多数测试数据属于分布内,这些解释受到质疑。我们提出,基础模型在全局上仍处于欠参数化状态,TTT提供了一种在泛化后实现专门化的机制,将模型能力集中于与测试任务相关的概念上。具体而言,在线性表示假设下,我们构建了一个模型,其中TTT实现的分布内测试误差远小于全局训练。通过在ImageNet上训练稀疏自编码器,我们实证验证了模型的关键假设,表明语义相关的数据点仅由少数共享概念解释。最后,我们在图像和语言任务上进行了扩展研究,证实了模型的实际意义,并识别出专门化最为有效的场景。
当前在线强化学习(RL)算法,如GRPO,在大型语言模型(LLM)推理中存在一个关键局限:它们无法从模型“无法解决”的问题中学习。换言之,这些算法仅能在模型能够探索出正确答案的问题上提升性能。因此,尽管RL训练后模型解决较易、可解问题的可能性增加,但其“上限”保持不变。这些难题样本无法贡献于训练,因为没有任何探索路径能产生奖励,也就无法生成梯度。为了解锁从这些难题样本中学习的能力,我们提出了NuRL,一种“助推”方法,旨在利用自生成的提示——即帮助模型降低问题难度的抽象线索——来推动LLM推理的上限。给定一个问题及其标准答案,模型生成一个推理链(CoT),随后产生一个包含解决问题所需核心知识的提示。训练过程中,我们从基础策略生成G条探索路径,并依据通过率决定是否注入提示。对于通过率为0%的难题样本,我们注入提示并重新生成一批轨迹。这带来两大益处:(1)提示提升了通过率(从0%到非零),从而为先前无法解决的样本引入了训练信号;(2)提示是自生成的,避免了分布偏移,且不依赖外部模型。NuRL在6个基准测试和3个模型上均实现了持续改进,同时与测试时扩展保持互补。值得注意的是,NuRL能够提升模型的上限,而GRPO则使pass@1024与基础模型相比保持不变。此外,我们系统性地研究了何为有效提示及提示何时最为有用。有趣的是,最佳提示是抽象且高层次的,且最有效的是在必要时应用,尤其是在GRPO收敛之后。
尽管基于扩散的大型语言模型(dLLMs)展现出令人瞩目的性能,但其推理效率仍显不足。这主要归因于dLLMs依赖双向注意力机制,无法像自回归模型(ARMs)那样直接受益于标准键值(KV)缓存。为解决这一问题,我们提出了双自适应缓存(d^2Cache),这是一个无需训练的近似KV缓存框架,旨在加速dLLM的推理过程。d^2Cache采用两阶段细粒度选择策略,在每一步解码时识别并自适应更新关键令牌的KV状态,同时缓存其余令牌的KV状态以供复用。此外,d^2Cache自然提供了一种更为可靠的解码替代方案,能够实现准从左至右的生成,并缓解序列末端令牌的过早过度自信问题。在LLaDA和Dream这两个代表性dLLM上的大量实验结果表明,d^2Cache不仅显著提升了推理速度,还在生成质量上实现了持续改进。相关代码已发布于https://github.com/Kamichanw/d2Cache。
现代人工智能技术主要建立在深度人工神经网络(NNs)基础之上。截至2025年,21世纪被引用次数最多的科学论文便是一篇关于深度残差学习及残差连接的神经网络研究。那么,这一突破性成果的发明者是谁呢?我们将在此呈现深度残差学习发展的时间脉络。
大型语言模型(LLMs)作为支持知识密集型应用(如问答和事实核查)的神经知识库,正受到越来越多的研究关注。然而,其知识的结构化组织仍未被深入探索。受认知神经科学发现的启发,例如语义聚类和启动效应——即了解一个事实会增加回忆起相关事实的可能性,我们探究了LLMs中类似的知识同质性模式。为此,我们通过在三元组和实体两个层面进行知识检查,将LLM的知识映射为图表示。随后,我们分析了实体与其邻居之间的知识掌握关系,发现LLMs往往对图中位置相近的实体拥有相似程度的知识。基于这一同质性原理,我们提出了一种图神经网络(GNN)回归模型,通过利用邻居节点的知识掌握分数来估计三元组在实体层面的知识掌握度。预测的知识掌握度使我们能够优先检查那些较少被熟知的三元组,从而在相同的标注预算下最大化知识覆盖。这不仅提高了为LLMs注入知识而进行的主动标注效率,用于微调,还增强了在推理密集型问答中的多跳路径检索能力。
现有的搜索技术仅限于标准的RAG查询-文档应用场景。本文提出了一种创新技术,通过扩展代码和索引来预测所需API,从而直接实现高质量的端到端代码生成,适用于自动补全和智能代理AI应用。针对当前代码到代码基准数据集中存在的API泄露问题,我们引入了一个基于真实世界ServiceNow脚本包含的新数据集,该数据集捕捉了代码中API使用意图不明确的挑战。评估指标显示,该方法在top-40检索准确率上达到了87.86%,为下游代码生成成功提供了关键的API上下文。为实现实时预测,我们开发了一个全面的后训练流程,通过合成数据集生成、监督微调和强化学习优化了一个紧凑的0.6B重排序模型。这一方法使我们的紧凑重排序模型在保持2.5倍延迟降低的同时,性能超越了更大的8B模型,有效解决了企业特定代码的细微差别,而无需承担更大模型的计算开销。
多智能体系统(MAS)在处理复杂现实任务方面日益强大,然而其依赖于智能体间的协调、工具使用及长期推理,使得错误识别尤为困难。细微错误可能在智能体间传播,演变为任务失败,同时产生冗长且交织的执行轨迹,这为人类开发者和自动化系统的调试与分析带来了显著成本。我们的核心洞察是,尽管失败轨迹(如日志)在表面上有差异,但MAS错误往往以相似的结构模式反复出现。本文提出了CORRECT,首个轻量级、无需训练的框架,它利用在线缓存中的精炼错误模式来识别并跨新请求传递失败结构知识。这种基于缓存的重用使LLM能够在推理时进行针对性错误定位,避免了昂贵的再训练,同时能在亚秒级时间内适应动态MAS部署。为支持该领域的严谨研究,我们还引入了CORRECT-Error,一个包含2000多条注释轨迹的大规模数据集,这些轨迹通过受现实分布指导的新型错误注入管道收集,并经过人工评估以确保与自然失败模式的一致性。在七个多样化MAS应用上的实验表明,CORRECT在步骤级错误定位上比现有技术提升了高达19.8%,且几乎无额外开销,显著缩小了自动化与人类级错误识别之间的差距。
基于Transformer的模型在时间序列预测领域取得了显著进展,其中基于分块的输入策略提供了高效性并改进了长时程建模。然而,现有方法依赖于时间无关的分块构建,即任意起始位置和固定长度通过跨越边界分割自然过渡,破坏了时间连贯性。这种简单的分段方式常常打断短期依赖关系,削弱了表示学习的效果。为此,我们提出了EntroPE(熵引导的动态分块编码器),这是一种新颖的、时间感知的框架,它通过条件熵动态检测过渡点,并动态放置分块边界。这一方法在保留分块计算优势的同时,维护了时间结构。EntroPE包含两个关键模块:一是基于熵的动态分块器(EDP),它应用信息论准则定位自然时间变化点并确定分块边界;二是自适应分块编码器(APE),它利用池化和交叉注意力机制捕捉分块内依赖关系,生成固定大小的潜在表示。这些嵌入随后由全局Transformer处理,以建模分块间的动态关系。在长期预测基准测试中的实验表明,EntroPE在提升准确性和效率方面均表现出色,确立了熵引导的动态分块作为时间序列建模的一个有前景的新范式。代码已发布于:https://github.com/Sachithx/EntroPE。
自动编译开源软件(OSS)项目是一项至关重要、劳动密集且复杂的任务,这使其成为大型语言模型(LLM)代理的理想挑战。现有方法依赖于手动制定的规则和工作流程,无法适应需要定制配置或环境设置的OSS。近期利用大型语言模型(LLMs)的尝试仅对部分高评分OSS进行选择性评估,这种做法低估了OSS编译的实际挑战。实践中,编译指令常常缺失,依赖关系未记录,成功的构建甚至可能需要修补源代码或修改构建脚本。我们提出了一个更具挑战性和现实性的基准测试——BUILD-BENCH,它包含质量、规模和特性更为多样化的OSS。此外,我们提出了一种强大的基于LLM的代理基线——OSS-BUILD-AGENT,这是一个高效的系统,配备了增强的构建指令检索模块,在BUILD-BENCH上实现了最先进的性能,并能适应异构OSS特性。我们还详细分析了不同编译方法设计选择及其对整个任务的影响,为未来进展提供了指导性见解。我们相信,BUILD-BENCH上的性能能够真实反映代理处理复杂软件工程任务的能力,因此,我们的基准测试将推动创新,对软件开发和软件安全领域下游应用产生重大影响。
多模态大语言模型(MLLMs)需要高分辨率的视觉信息以实现细粒度感知,然而处理完整的高分辨率图像在计算上代价高昂。尽管近期方法利用感兴趣区域(RoI)机制聚焦于显著区域,但它们通常面临一个艰难的权衡:基于训练的方法依赖于大规模标注数据集,而利用模型内部注意力的无训练方法则计算效率低下且准确性不足,需要多轮预填充阶段或依赖缓慢的自回归解码过程。本文提出了一种高效、无需标注的自蒸馏区域提议网络(SD-RPN),有效解决了这一权衡问题。SD-RPN围绕一个管道构建,该管道通过显式去噪和消除歧义,将MLLM中间层的噪声注意力图转化为高质量的伪RoI标签。我们利用这些标签训练一个轻量级的区域提议网络(RPN),使其学习更精确的定位。该RPN同样高效,仅需单次前向传播即可预测RoI,利用MLLM中间层的特征,将RoI识别与自回归生成解耦,避免了昂贵的多轮操作。为验证我们的方法,我们将该框架集成到LLaVA-1.5架构中。尽管仅使用少量(如10K)问答对进行训练,我们的方法展现了卓越的数据效率和泛化能力,在未见过的基准测试(包括TextVQA、DocVQA和V-Star)上实现了超过10%的绝对准确率提升。我们的工作为增强MLLMs的细粒度感知提供了一种实用且可扩展的解决方案,无需昂贵的监督或全模型微调。代码可在https://github.com/YuHengsss/SD-RPN获取。
大型音频-语言模型正迅速发展,然而多数评估侧重于语音或全球通用的声音,忽视了具有文化特色的线索。这一空白引发了一个关键问题:当前模型能否推广到本地化、非语义的音频,这些音频社区成员能立即识别,而外人却无法理解?为解决这一问题,我们提出了TAU(台湾音频理解)基准,它包含日常台湾“声景”的评估集。TAU通过整合精选资源、人工编辑及大语言模型辅助的问题生成流程构建而成,共包含702段音频片段和1,794道多选题,这些问题无法仅凭文字转录解答。实验表明,包括Gemini 2.5和Qwen2-Audio在内的最先进音频-语言模型表现远不及本地人类。TAU凸显了建立本地化基准的必要性,以揭示文化盲点,指导更公平的多模态评估,并确保模型服务于全球主流之外的社区。
我们提出了卷积集合变换器(Convolutional Set Transformer, CST),这是一种新颖的神经网络架构,旨在处理视觉上异质但共享高层语义(如共同类别、场景或概念)的任意基数图像集合。现有的集合输入网络,例如深度集合(Deep Sets)和集合变换器(Set Transformer),仅限于处理向量输入,无法直接处理三维图像张量。因此,它们必须与特征提取器(通常是卷积神经网络CNN)级联,先将图像编码为嵌入,再由集合输入网络建模图像间关系。相比之下,CST直接操作于三维图像张量,同时执行特征提取和上下文建模,从而实现这两个过程的协同效应。这一设计在集合分类和集合异常检测等任务中表现出色,并且与CNN可解释性方法(如Grad-CAM)天然兼容,而其他竞争方法则仍显不透明。最后,我们展示了CST可以在大规模数据集上进行预训练,并通过标准的迁移学习方案适应新的领域和任务。为了支持进一步研究,我们发布了CST-15,这是一个在ImageNet上预训练的CST骨干网络(https://github.com/chinefed/convolutional-set-transformer)。
扩散模型为概率天气预报提供了一个基于物理的框架,但其在推理过程中通常依赖缓慢的迭代求解器,这使得它们在次季节至季节(S2S)预测中显得不切实际,因为这类应用需要较长的预报提前期和基于领域的校准。为解决这一问题,我们引入了Swift,一种单步一致性模型,首次实现了以连续排名概率评分(CRPS)为目标的自回归微调概率流模型。这一创新消除了对多模型集成或参数扰动的需求。实验结果表明,Swift能够生成具有技巧的6小时预报,预报稳定性可维持长达75天,运行速度比最先进的扩散基线快39倍,同时其预报技巧与基于数值的运营IFS ENS系统相当。这标志着从中期到季节尺度上,我们向高效可靠的集合预报迈出了重要一步。
设计师通常在图层表示中创作和编辑图形设计,但一旦合成到栅格图像中,基于图层的编辑便无法进行。本研究提出LayerD方法,旨在将栅格图形设计分解为可重新编辑的图层,以支持创意工作流程。LayerD通过迭代提取未被遮挡的前景图层来解决分解任务。我们提出了一种简单而有效的优化方法,该方法利用了图形设计中图层通常呈现均匀外观的假设。鉴于分解问题的不适定性及真实图层结构可能不可靠,我们开发了一种质量度量标准来应对这一难题。实验表明,LayerD成功实现了高质量的分解,并超越了基线方法。我们还展示了LayerD与最先进的图像生成器及基于图层的编辑功能结合使用的实例。
尽管具备推理能力的大型语言模型(LLMs)在高中数学竞赛和编程领域进展迅速,但它们能否有效应对前沿物理研究中复杂的开放式挑战?尤为关键的是,物理学家期望LLMs协助完成哪些类型的推理任务?为解答这些问题,我们推出了CritPt(综合思维物理测试,发音同“临界点”),这是首个旨在测试LLMs在未发表的研究级推理任务上的基准,广泛覆盖了现代物理研究领域,包括凝聚态物理、量子物理、原子分子与光学物理、天体物理、高能物理、数学物理、统计物理、核物理、非线性动力学、流体动力学及生物物理。CritPt包含71项综合研究挑战,模拟入门级完整研究项目,并进一步分解为190个更简单的检查点任务,以获取更细致的洞察。所有问题均由50多位活跃的物理研究人员根据其自身研究全新设计,每道题目均经过精心筛选,确保答案难以猜测且可被机器验证,并通过高度定制化的自动化评分流程进行评估,该流程专门针对高级物理特定输出格式进行了优化。我们发现,尽管当前最先进的LLMs在独立检查点上展现出初步潜力,但它们仍远未达到可靠解决完整研究规模挑战的水平:基础模型中的最佳平均准确率仅为4.0%,由GPT-5(高)实现,配备编码工具后,这一数字适度提升至约10%。通过CritPt提供的真实且标准化的评估,我们凸显了当前模型能力与真实物理研究需求之间的巨大差距,为开发基于科学基础的AI工具奠定了指导基础。
时序基础模型(TSFMs)通过大规模预训练实现了强大的零样本预测能力,然而在公开数据有限的领域中,微调对于提升性能仍至关重要。随着TSFMs数量的增加,高效识别最适合下游微调的模型变得愈发困难。本研究中,我们提出了TimeTic,一种将模型选择重构为上下文学习问题的可迁移性评估框架:基于已知(源)数据集上的观测,它预测TSFM在下游(目标)数据集微调后的表现。TimeTic灵活地将观测到的模型-数据关系组织为上下文信息,使其能无缝适应各种测试场景。利用由数据集元特征、模型特性及微调性能形成的自然表格结构,我们采用表格基础模型作为上下文学习器。此外,我们引入了一种基于模型层间熵演变的新型模型表征方法,捕捉嵌入空间的差异,使TimeTic能够泛化至任意模型集。我们建立了一个全面的可迁移性评估基准,包含10个数据集、10个基础模型及3种预测任务。在此基准上,TimeTic的评估结果与未见数据集的实际微调性能高度一致,平均秩相关系数约为0.6,相较于使用零样本性能作为可迁移性评分,提升了30%。
针对大型语言模型(LLMs)的水印技术,通过在文本生成过程中嵌入统计信号,以实现对模型输出文本的检测。尽管水印在良性环境下已被证实有效,但其在对抗性规避下的鲁棒性仍存争议。为了深入理解并系统评估此类脆弱性,我们提出了理论驱动且模型无关的“偏差反转重写攻击”(BIRA)。BIRA通过在基于LLM的重写过程中抑制可能带有水印标记的logits值,无需了解底层水印方案,即可削弱水印信号。在多种最新水印方法上,BIRA实现了超过99%的规避率,同时保持了原文的语义内容。除了展示攻击手段外,我们的研究揭示了一种系统性漏洞,强调了压力测试与构建更强健防御机制的必要性。
基于扩散模型的对抗净化已成为一种颇具前景的防御策略,但现有方法通常依赖于均匀噪声注入,这种不加区分地扰动所有频率的方式会破坏语义结构并削弱鲁棒性。我们的实证研究表明,对抗扰动并非均匀分布:它们主要集中于高频区域,且在不同频率和攻击类型间呈现出异质的幅值强度模式。受此启发,我们提出了MANI-Pure,一种幅值自适应的净化框架,该框架利用输入的幅值谱来指导净化过程。与注入同质噪声不同,MANI-Pure自适应地应用异质、频率定向的噪声,有效抑制了脆弱高频低幅值频段中的对抗扰动,同时保留了语义关键的低频内容。在CIFAR-10和ImageNet-1K上的大量实验验证了MANI-Pure的有效性。它将干净准确率与原始分类器的差距缩小至0.59以内,同时将鲁棒准确率提升了2.15,并在RobustBench排行榜上取得了最高的鲁棒准确率,超越了之前的最先进方法。
现有技能熟练度评估方法多依赖于黑箱视频分类器,忽视了多视角上下文且缺乏可解释性。我们提出ProfVLM,一个紧凑的视觉-语言模型,将这一任务重构为生成式推理:它从第一人称和第三人称视频中联合预测技能水平并生成专家级反馈。我们方法的核心在于一个注意力门控投影器,它动态融合了从冻结的TimeSformer骨干网络投影到为反馈生成调优的语言模型中的多视角特征。通过在EgoExo4D数据集上结合专家评论进行训练,ProfVLM在减少高达20倍参数和缩短60%训练时间的同时,超越了现有最先进方法。我们的方法不仅在多样活动中实现了更高的准确率,还输出了与表现一致的自然语言评价,提供了透明的推理过程。这些成果彰显了生成式视觉-语言建模作为技能评估领域一个强大新方向的潜力。
近期视频生成技术的进步使得从用户提供的提示中合成高保真视频成为可能。然而,现有模型和基准测试未能充分捕捉专业视频生成的复杂性和需求。为此,我们引入了稳定电影度量(Stable Cinemetrics),这是一个结构化的评估框架,将电影制作控制形式化为四个解耦的、层次化的分类体系:场景设置、事件、灯光和摄像机。这些分类体系共同定义了基于行业实践的76个细粒度控制节点。利用这些分类体系,我们构建了一个与专业用例对齐的提示基准,并开发了一个自动化的提示分类和问题生成流程,从而能够独立评估每个控制维度。我们进行了一项大规模的人类研究,涵盖10多个模型和2万多个视频,由80多位电影专业人士进行标注。我们的分析,无论是粗粒度还是细粒度,都揭示了即使当前最强的模型也存在显著差距,特别是在事件和摄像机相关控制方面。为了实现可扩展的评估,我们训练了一个自动评估器,这是一个与专家标注对齐的视觉-语言模型,其表现优于现有的零样本基线。SCINE是首个将专业视频生成置于视频生成模型领域的方法,引入了以电影控制为中心的分类体系,并通过结构化评估流程和详细分析为其提供支持,以指导未来研究。
现有的多模态音频生成模型往往缺乏精确的用户控制,这限制了它们在专业拟音工作流程中的应用。特别是,这些模型关注的是整个视频,并未提供针对场景中特定对象进行优先处理的方法,导致生成不必要的背景声音或聚焦于错误的对象。为解决这一问题,我们引入了视频对象分割感知音频生成这一新任务,该任务明确地将声音合成建立在对象级分割图的基础上。我们提出了SAGANet,一种新的多模态生成模型,它通过结合视觉分割掩码、视频和文本线索,实现了可控的音频生成。我们的模型为用户提供了细粒度且视觉定位的音频生成控制。为支持这一任务并推动分割感知拟音的进一步研究,我们提出了Segmented Music Solos,一个包含分割信息的乐器演奏视频基准数据集。我们的方法相较于当前最先进技术展现了显著改进,并为可控、高保真拟音合成设立了新标准。代码、样本及Segmented Music Solos数据集可在https://saganet.notion.site获取。
在迈向智能图像编辑的过程中,对象移除不仅应消除目标物体,还需一并去除其引发的视觉痕迹,如阴影与反射。然而,现有的基于图像外观的方法要么严格遵循掩码对齐训练,未能移除那些未被明确掩码标记的因果效应;要么采用宽松的掩码对齐策略,缺乏可控性,可能无意中过度擦除其他对象。我们认识到,这些局限源于忽视了物体几何存在与其视觉效应之间的因果关系。为克服这一局限,我们提出了一种几何感知的两阶段框架,将对象移除分解为:(1) 几何移除与(2) 外观渲染。在第一阶段,我们通过严格掩码对齐的监督直接从几何(如深度)中移除对象,实现具有强几何约束的结构感知编辑。第二阶段,我们基于更新后的几何条件渲染出逼真的RGB图像,其中因果视觉效应作为修改后三维几何的自然结果被隐含考虑。为引导几何移除阶段的学习,我们引入了一种基于正负样本对的偏好驱动目标,鼓励模型在移除对象及其因果视觉痕迹的同时,避免引入新的结构元素。大量实验证明,我们的方法在两个流行基准测试中,在移除对象及其关联痕迹方面达到了业界领先水平。代码已发布于https://github.com/buxiangzhiren/GeoRemover。