每日精选AI研究论文及翻译
我们推出通义深度研究(Tongyi DeepResearch)——一款专为长周期深度信息检索任务设计的智能体大语言模型。为激发自主深度研究能力,该模型通过融合智能体中期训练与智能体后期训练的端到端训练框架开发,实现了跨复杂任务的可扩展推理与信息检索。我们设计了高度可扩展的全自动数据合成流程,无需依赖昂贵的人工标注即可支撑所有训练阶段。通过为每个阶段构建定制化交互环境,系统确保了全流程稳定一致的交互体验。通义深度研究模型总参数量达305亿,每令牌仅激活33亿参数,在包括"人类终极考试"、BrowseComp、BrowseComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES及xbench-DeepSearch-2510等一系列智能体深度研究基准测试中均达到业界领先水平。我们将开源模型、框架及完整解决方案,以赋能研究社区。
语言智能体在网络搜索和信息检索领域展现出巨大潜力。然而现有搜索智能体普遍假设用户查询是完整且明确的,这种假设与现实场景存在偏差——用户往往以不完整的查询开始搜索,需要通过交互进行澄清。当前多数智能体缺乏搜索过程中的交互机制,现有基准测试也无法评估这种能力。为填补这一空白,我们推出InteractComp基准测试框架,专门评估搜索智能体能否识别查询歧义并在搜索过程中主动交互以消除歧义。 遵循"易于验证、交互消歧"的原则,我们采用目标-干扰项方法在9个领域构建了210道专家精编问题,这些问题具有真实的歧义性且只能通过交互解决。对17个模型的评估揭示出惊人缺陷:即便在完整上下文条件下准确率达71.50%,最佳模型在交互场景下的准确率仅为13.73%,暴露出系统性的过度自信而非推理能力不足。强制交互能带来显著效果提升,证明现有策略未能有效激发模型的潜在能力。 纵向分析表明,在搜索性能提升七倍的同时,交互能力在15个月内停滞不前,这揭示出关键的技术盲区。这种能力停滞与搜索任务固有的即时反馈特性,使得InteractComp成为评估和训练搜索智能体交互能力的宝贵资源。代码已开源:https://github.com/FoundationAgents/InteractComp。
基于大语言模型的网络智能体在信息检索领域展现出巨大潜力,但其在长周期任务中的效能受到上下文管理固有矛盾的制约。当前主流的基于ReAct框架的智能体因持续积累杂乱原始历史记录而面临语境饱和问题,而那些在每一步都固定式汇总完整历史的方法则可能造成关键细节的不可逆丢失。针对这些挑战,我们受人类回溯巩固认知过程的启发,提出了以主动式上下文管理为核心的新型智能体范式AgentFold。该范式将上下文视作可动态雕琢的认知工作空间,而非被动填充的日志记录。在每个决策步骤中,AgentFold通过习得的“折叠”操作对历史轨迹进行多尺度管理:既可执行细粒度压缩以保留重要的微观细节,也能进行深度整合来抽象化多步骤子任务。在权威基准测试中的结果令人瞩目:仅通过简单的监督微调(无需持续预训练或强化学习),我们的AgentFold-30B-A3B智能体在BrowseComp上达到36.2%的准确率,在BrowseComp-ZH上达到47.3%。尤为值得注意的是,这一表现不仅超越或匹配了规模显著更大的开源模型(如DeepSeek-V3.1-671B-A37B),甚至超越了OpenAI的o4-mini等领先的专有智能体。
近期,多模态大语言模型(MLLM)的突破性进展推动了机器人操作领域视觉-语言-动作(VLA)模型的快速发展。尽管现有方法在许多场景中表现优异,但它们主要依赖显式指令进行交互,而现实世界中人类很少直接下达指令。要实现高效协作,机器人需具备主动推断用户意图的能力。本文提出跨模态情境指令这一新范式,其核心在于通过语音对话、环境声音与视觉线索(而非显式命令)来推导用户意图。为应对这一新范式,我们推出RoboOmni——基于端到端全模态大语言模型的感知-思考-对话-执行框架,该框架统一了意图识别、交互确认与动作执行三大功能。RoboOmni通过时空融合听觉与视觉信号实现鲁棒的意图识别,并支持直接语音交互。针对机器人操作中主动意图识别训练数据的缺失,我们构建了包含14万条操作序列、5000+说话人、2400种事件声音、640种背景及六类情境指令的OmniAction数据集。仿真与实体实验表明,RoboOmni在任务成功率、推理速度、意图识别准确率和主动协助能力上均超越基于文本与自动语音识别(ASR)的基线模型。
我们提出Game-TARS——一种基于统一可扩展动作空间的通用游戏智能体,其动作空间以符合人类习惯的键盘鼠标原生输入为锚点。与基于API或图形界面的方法不同,该范式支持跨操作系统、网页和模拟游戏等异构领域的大规模持续预训练。Game-TARS通过5000亿标记的多模态数据及多样化轨迹进行预训练,核心技术包括降低因果混淆的衰减持续损失函数,以及平衡推理深度与计算成本的稀疏思维策略。实验表明:在开放世界《我的世界》任务中,Game-TARS的成功率达到此前最优模型的约两倍;在未见过的网页3D游戏中接近人类新手的普适性水平;在FPS游戏基准测试中超越GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet。训练阶段与测试阶段的扩展性实验证实,统一动作空间在跨游戏多模态数据扩展时能持续提升性能。我们的结果表明:简洁可扩展的动作表征与大规模预训练相结合,为构建具有广泛计算机使用能力的通用智能体提供了可行路径。
连续空间视频生成技术发展迅猛,而离散方法因误差累积和长上下文不一致问题进展缓慢。本研究重新审视离散生成建模,提出具有度量路径的均匀离散扩散框架(URSA),这一简洁而强大的架构成功弥合了离散方法与连续方法在可扩展视频生成领域的差距。URSA的核心是将视频生成任务构建为离散时空标记的迭代式全局优化过程。该框架融合了两项关键设计:线性化度量路径和分辨率相关的时间步偏移机制。这些设计使URSA能够高效扩展至高分辨率图像合成和长时序视频生成,同时大幅减少推理步数。此外,我们引入异步时序微调策略,将插值和图像到视频生成等多种任务统一于单一模型中。在具有挑战性的视频与图像生成基准测试中,大量实验表明URSA持续超越现有离散方法,并达到与最先进连续扩散方法相媲美的性能。代码与模型已开源:https://github.com/baaivision/URSA
关于AI智能体大规模监督微调的公开研究成果仍相对稀缺,这主要源于智能体训练数据收集面临独特挑战。本文提出,当前瓶颈并非底层数据源匮乏,而是海量数据分散在异构的格式、工具与接口中。为此,我们推出智能体数据协议——一种轻量级表示语言,可作为不同格式智能体数据集与下游统一训练流程之间的"中介语言"。ADP的设计既能充分表达各类任务(包括API/工具调用、网页浏览、编程、软件工程及通用智能体工作流),又无需针对每个数据集进行工程化处理即可轻松解析和训练。实验中,我们将13个现有智能体训练数据集统一转换为ADP格式,并将标准化后的ADP数据适配至多个智能体框架的训练就绪格式。基于这些数据的监督微调实验表明:相比基线模型平均性能提升约20%,在编程、浏览、工具使用及研究基准测试中达到或接近最先进水平,且无需领域特定调优。所有代码与数据均已开源,期望ADP能助力降低标准化、可扩展、可复现的智能体训练门槛。
现有视觉-语言-动作模型虽能在三维现实世界中行动,却通常基于二维编码器构建,存在空间推理鸿沟,限制了泛化能力和适应性。近期针对VLA的三维集成技术要么需要专用传感器且跨模态迁移能力差,要么仅注入缺乏几何信息的弱线索并损害视觉-语言对齐。本文提出FALCON(从空间到行动)新范式,通过向动作头部注入丰富的三维空间标记实现突破。FALCON利用空间基础模型仅凭RGB图像即可提供强几何先验,并包含具身空间模型——该模型可选择性融合深度或位姿信息以提升可用时的保真度,且无需重新训练或改变架构。为保持语言推理能力,空间标记由空间增强动作头部处理而非简单拼接至视觉-语言主干网络。这些设计使FALCON能有效解决空间表征、模态迁移性和对齐方面的局限。在三个仿真基准与十一项现实任务的综合评估中,FALCON实现了最先进的性能表现,持续超越竞争基线,并在杂乱场景、空间提示条件约束以及物体尺度与高度变化下保持稳健性。
近日,基于Diffusion-in-Transformer模型的图像编辑技术发展迅速。然而,现有编辑方法往往缺乏对编辑程度的有效控制,限制了其实现更精细化定制结果的能力。针对这一局限,我们研究了DiT模型中的MM-Attention机制,发现Query和Key令牌共享一个仅与网络层相关的偏置向量。我们将该偏置向量解释为模型固有的编辑行为表征,而各令牌与其对应偏置间的差值则编码了内容特定的编辑信号。基于此发现,我们提出了分组相对注意力引导(GRAG)方法——通过重新加权不同令牌的差值来调节模型对输入图像相对于编辑指令的关注程度,无需任何调参即可实现连续细粒度的编辑强度控制。在现有图像编辑框架上的大量实验表明,GRAG仅需四行代码即可集成,并能持续提升编辑质量。与常用的无分类器引导相比,GRAG能实现更平滑、更精确的编辑程度控制。我们的代码将在https://github.com/little-misfit/GRAG-Image-Editing发布。
推测解码通过使用小型草稿模型预测多个候选标记,并由目标模型并行验证,从而加速大语言模型推理。将这一思路扩展至批处理对生产环境部署至关重要,但会引入非规则张量问题:同一批次中的序列接受的草稿标记数量不同,这会破坏右对齐结构,导致位置编码、注意力掩码和KV缓存状态异常。我们发现现有多种批处理实现违反了输出等价性原则——即推测解码必须与标准自回归生成产生完全相同标记序列的基本要求。这些违规现象正是由于对非规则张量问题的处理不当所致。为此我们(1)明确了保证正确性的同步要求,(2)提出正确性优先的批处理推测解码算法EQSPEC,其显示重对齐操作消耗了40%的开销,(3)引入EXSPEC算法,通过维护序列滑动池并动态组建等长分组,在保持单序列推测加速的同时降低重对齐开销。在SpecBench数据集上,基于Vicuna-7B/68M、Qwen3-8B/0.6B和GLM-4-9B/0.6B等目标/草稿模型对的实验表明,相较于批大小为1的基准,我们的方法在批大小为8时实现了最高3倍的吞吐量提升,且能保持95%的输出等价性。该方案无需定制化内核,可无缝集成至现有推理框架。代码已开源:https://github.com/eBay/spec_dec。
基于大语言模型的搜索代理正越来越多地通过以实体为中心的合成数据进行训练,以解决复杂的知识密集型任务。然而,当前主流的训练方法(如群组相对策略优化GRPO)丢弃了这些丰富的实体信息,转而依赖稀疏的结果导向型奖励。这一关键局限使其无法区分具有重要参考价值的"近正确"样本(即推理过程基本正确但最终答案存在缺陷的案例)与完全失败的案例,从而导致有价值的学习信号被丢弃。我们通过利用训练过程中被忽视的实体信息来解决这一问题。实证分析表明,智能体在推理过程中识别出的真实实体数量与最终答案准确性存在强正相关性。基于此发现,我们提出了实体感知群组相对策略优化(E-GRPO)新框架,该框架构建了密集的实体感知奖励函数。E-GRPO根据错误样本的实体匹配率为其分配相应部分奖励,使模型能够有效从这些"近正确"样本中学习。在多样化问答和深度研究基准测试上的实验表明,E-GRPO始终显著优于GRPO基线方法。进一步分析显示,E-GRPO不仅实现了更高的准确率,还诱导出更高效的推理策略——所需工具调用次数更少,这证明该方法为搜索代理对齐提供了更有效且样本效率更高的解决方案。
在语言模型能力边界任务上训练大型智能体,是解锁高级推理能力的关键。受教育学中"最近发展区"(ZPD)理论启发,我们提出一种数据合成方法——该理论将能力边界定义为语言模型虽无法独立解决、但能在引导下掌握的任务。为实现这一理念,我们开发了AgentFrontier引擎:一个自动化流水线,能精准生成位于语言模型ZPD内的高质量多学科数据。该引擎既支持基于知识密集型数据的持续预训练,也支持针对复杂推理任务的定向后训练。基于同一框架,我们构建了ZPD考试——一个动态自动化基准测试体系,专门用于评估智能体在边界任务上的表现。通过使用合成数据训练的AgentFrontier-30B-A3B模型,在《人类终极考试》等高难度基准测试中取得了突破性成果,甚至超越了部分领先的专有智能体。本研究证明,以ZPD为指导的数据合成方法为构建更强能力的语言模型智能体提供了可扩展的有效路径。
随着决策与推理能力的进步,多模态智能体在计算机应用场景中展现出巨大潜力。现有评估主要关注图形用户界面交互能力,而对基于模型上下文协议(MCP)等工具调用功能的评估长期被忽视。将集成工具调用的智能体与仅支持GUI交互的智能体直接对比存在本质上的不公平。我们推出OSWorld-MCP——首个在真实环境中全面公正评估计算机使用智能体的工具调用、GUI操作及决策能力的基准测试平台。通过创新的自动化代码生成流水线,我们构建了涵盖7类常用应用的158个高质量工具(均经过功能正确性、实用性与多场景适用性验证),并结合现有工具库进行精选。基于OSWorld-MCP对前沿多模态智能体的广泛测试表明:MCP工具能显著提升任务成功率(如OpenAI o3在15步时从8.3%提升至20.4%,Claude 4 Sonnet在50步时从40.1%提升至43.3%),印证了评估工具调用能力的必要性。但当前最强模型的工具调用率仍偏低(仅36.3%),既揭示了改进空间,也凸显了该基准的挑战性。OSWorld-MCP通过显式衡量MCP工具使用技能,深化了对多模态智能体的认知,为复杂工具辅助环境下的性能评估设立了新标准。相关代码、环境及数据已开源:https://osworld-mcp.github.io。
尽管多模态大语言模型(MLLMs)在视觉理解方面表现出色,但在需要视觉规划与想象的复杂场景中往往表现不佳。受人类通过草图进行视觉思考以发展并传达想法的启发,我们提出了潜在画板(Latent Sketchpad)框架,为MLLMs配备内部视觉草稿本。传统上MLLMs的内部视觉表征仅局限于感知理解,我们将其重新定位以支持生成式视觉思维,同时不损害推理能力。基于前沿MLLMs,我们的方法将视觉生成直接整合到其原生自回归推理过程中,使模型能够交错进行文本推理与视觉潜变量的生成。这些潜变量既能引导内部思维过程,也可通过草图解码器转化为可解释的图像。为实现这一目标,我们引入两个核心组件:上下文感知视觉头自回归生成视觉表征,预训练草图解码器将其渲染为人类可理解的图像。我们在新数据集MazePlanning上评估该框架,实验表明潜在画板在各类MLLMs中均能实现与骨干网络相当甚至更优的推理性能,并成功泛化至Gemma3、Qwen2.5-VL等不同前沿模型。通过将模型的文本推理扩展至视觉思维,本框架为人机交互的丰富化和应用场景的拓宽开辟了新途径。更多细节与资源请访问项目页面:https://latent-sketchpad.github.io/。
近期,大型语言模型(LLMs)催生了能够生成、执行和修正可视化代码的编程智能体。然而,现有模型因语言覆盖范围有限、执行可靠性不足以及缺乏迭代修正机制,在实际工作流程中往往表现不佳。由于现有数据集和基准测试过于局限,过度强调单轮生成和单一语言任务,相关研究进展受到制约。为解决这些挑战,我们推出三项互补资源以推进可视化编程智能体发展:VisCode-Multi-679K作为大规模监督数据集,包含67.9万个经过验证的可执行可视化样本,涵盖12种编程语言的多轮修正对话;VisPlotBench作为系统性评估基准,提供可执行任务、渲染输出以及支持初始生成与多轮自调试的测试协议;最后,我们提出基于VisCode-Multi-679K训练的多语言可视化模型系列VisCoder2。实验表明,VisCoder2显著超越强开源基线模型,性能接近GPT-4.1等专有模型,通过迭代自调试进一步实现效能提升——在320亿参数规模下达到82.4%的整体执行通过率,尤其在符号化或依赖编译器的编程语言中表现突出。
平行思维通过扩展探索广度,与信息搜索(IS)智能体的深度探索形成互补,从而进一步提升问题解决能力。然而传统平行思维在此场景下面临两大挑战:因反复从头展开探索导致的低效性,以及在答案生成过程中难以整合长程推理轨迹——有限的上下文容量阻碍了对推理过程的全面考量。为解决这些问题,我们提出面向深度IS智能体的两阶段范式ParallelMuse。第一阶段"功能化分段展开"将生成序列划分为功能区域,通过不确定性引导的路径复用与分支提升探索效率;第二阶段"压缩式推理聚合"利用推理冗余性,对答案推导相关信息进行无损压缩并合成连贯的最终答案。在多个开源智能体与基准测试上的实验表明,该方法可实现最高62%的性能提升,同时减少10%-30%的探索性令牌消耗。
当前关于缩放定律的研究过度集中于英语领域,而最前沿的AI模型实际服务着数十亿国际用户。本研究开展了迄今规模最大的多语言缩放定律分析,累计完成774项多语言训练实验,覆盖模型参数量级从1000万至80亿,训练语言超400种,评估语言达48种。我们提出适用于单语与多语预训练的自适应迁移缩放定律(ATLAS),其样本外泛化能力较现有缩放定律普遍提升超过0.3的R²值。通过实验分析,我们揭示了多语言学习动态机制、语言间迁移特性以及多语言性诅咒现象:首先推导出跨语言迁移矩阵,实证测量38×38=1444组语言对间的互惠分值;其次建立语言无关的缩放定律,揭示在扩展语言种类时如何优化模型规模与数据配置以保持性能;最后确定了从头预训练与基于多语言检查点微调的计算临界点。这些发现有望为跨语言缩放定律的民主化奠定科学基础,助力实践者突破英语优先的AI开发现状,实现模型的高效扩展。
训练批判性语言模型以评估模型输出并提供反馈,是提升大语言模型复杂推理能力的有效途径。然而现有方法通常依赖更强的监督源进行批判数据标注。为此,我们提出Critique-RL——一种无需强监督的在线强化学习框架,用于开发批判性语言模型。该方法采用双智能体交互范式:行动者生成初始回答,批判者提供反馈,行动者据此优化回答。我们首先发现,若仅依赖行动者输出的间接奖励信号进行强化学习优化,往往导致批判者能力失衡:其帮助性(即提供建设性反馈的能力)虽有所提升,但判别力(即判断回答质量优劣的能力)仍显不足,最终造成性能提升有限。为突破此局限,Critique-RL采用两阶段优化策略:第一阶段通过基于规则的直接奖励信号强化批判者的判别力;第二阶段引入基于行动者优化效果的间接奖励来提升批判者的帮助性,同时通过正则化手段保持其判别力稳定性。在多任务和多模型的广泛实验中,Critique-RL均带来显著性能提升。以Qwen2.5-7B模型为例,其在领域内任务和领域外任务上分别实现9.02%和5.70%的性能增益,彰显了该方法的潜力。
基于大语言模型(LLM)的智能体已成为解决开放性问题的重要突破,其中信息检索(IS)作为实现自主推理与决策的核心能力尤为关键。尽管现有研究主要聚焦于提升检索深度,我们发现当前IS智能体普遍存在搜索效率低下的问题,进而制约整体性能。这种低效现象的核心成因在于训练任务中目标实体的稀疏性,限制了智能体学习并泛化高效搜索行为的机会。为应对这些挑战,我们提出WebLeaper框架——通过构建高覆盖度的IS任务并生成高效解决路径来优化性能。我们将IS问题形式化为树状推理结构,使得在有限上下文中能嵌入更大量的目标实体。借助精选的维基百科表格,我们设计了基础型、联合型及反向联合型三种任务生成变体,系统化提升IS的效能与效率。最后通过筛选兼具准确性与高效性的训练轨迹,确保模型在正确性与搜索性能上同步优化。在BrowserComp、GAIA、xbench-DeepSearch、WideSearch和Seal-0五个IS基准测试集上进行的广泛实验表明,无论是基础场景还是复杂场景,我们的方法均能持续超越强基线模型,在效果与效率上实现双重提升。
专家混合模型(MoE)已成为扩展模型容量同时保持计算效率的重要范式。尽管该范式在大型语言模型(LLM)中取得显著成功,但现有将MoE应用于扩散变换器(DiT)的尝试收效有限。我们认为这一差距源于语言令牌与视觉令牌的根本差异:语言令牌具有语义密集性和显著的令牌间差异性,而视觉令牌则存在空间冗余和功能异质性,阻碍了视觉MoE中的专家专业化。为此,我们提出ProMoE框架,其配备具有显式路由指导的双级路由器以促进专家专业化。具体而言,该框架通过条件路由根据功能角色将图像令牌划分为条件集和无条件集,并借助基于语义内容可学习原型的原型路由,优化条件图像令牌的分配策略。此外,原型路由实现的潜在空间基于相似度的专家分配,为引入显式语义指导提供了天然机制,我们验证了此类指导对视觉MoE至关重要。基于此,我们提出路由对比损失函数,显式增强原型路由过程,促进专家内部一致性与专家间多样性。在ImageNet基准上的大量实验表明,ProMoE在整流流和DDPM两种训练目标下均超越现有最先进方法。代码与模型将公开发布。
迄今为止,几乎不存在能够覆盖大量语言与文化的、具有文化特异性的大型语言模型评估基准。本文提出Global PIQA——一个涵盖100多种语言的参与式常识推理基准,由来自全球65个国家的335名研究人员手工构建。Global PIQA包含的116种语言变体覆盖五大洲、14个语系和23种文字系统。在其非平行数据集中,超过50%的实例涉及地方饮食、习俗、传统或其他文化特异性元素。研究发现,尽管顶尖大型语言模型在Global PIQA上的整体表现良好,但在低资源语言中表现较弱(准确率差距最高达37%,随机基准为50%)。开源模型普遍逊于专有模型。Global PIQA表明,对于许多语言文化而言,日常知识仍是待改进领域,这与备受关注的复杂推理和专业知识等能力形成对照。除用于评估大型语言模型外,我们期待Global PIQA能展现人类语言所根植的文化多样性图景。
尽管多模态大语言模型与大规模音频语言模型发展迅速,但现有音频基准主要测试可从文本描述中还原的语义信息,这掩盖了模型在细粒度感知推理方面的缺陷。我们正式提出"音频四维智能"概念——即对声音在时间与三维空间中动态变化的推理能力,并推出STAR-Bench基准进行量化评估。该基准将基础听觉感知(包含绝对与相对两种模式下的六种属性)与整体时空推理相结合,后者涵盖连续/离散过程的片段重组任务,以及静态定位、多源关系、动态轨迹等空间任务。 我们通过双路径数据构建流程确保样本质量:基础任务采用程序化合成与物理模拟音频;整体数据则经过四阶段构建流程,包含人工标注与基于人类表现的最终筛选。与现有基准中仅凭文本回答导致准确率轻微下降不同,STAR-Bench引发显著性能落差(时序任务-31.5%,空间任务-35.2%),证明其聚焦于语言难以描述的感知线索。对19个模型的评估揭示了与人类的巨大差距及能力分层:闭源模型受限于细粒度感知能力,开源模型则在感知、知识、推理三个维度全面落后。STAR-Bench为开发具有物理世界稳健理解能力的新一代模型提供了关键洞见与明确路径。
自我改进系统需要通过环境交互实现持续适应。我们提出SPICE(语料库环境自博弈)强化学习框架,其核心在于单一模型扮演双重角色:作为挑战者从大型语料库中挖掘文档以生成多样化推理任务,同时作为求解者解决这些任务。通过对抗性动态机制,挑战者在求解者能力边界上构建自动课程,而语料库根基则为持续改进提供了丰富且近乎无穷的外部信号。与现有缺乏根基的自博弈方法相比,SPICE在多个模型系列的数学推理(+8.9%)和通用推理(+9.8%)基准测试中均实现稳定提升。分析表明,文档根基是SPICE持续生成并实现日益复杂目标的关键要素,从而驱动系统的持续自我改进。
可验证奖励的强化学习(RLVR)在数学与多模态推理领域展现出显著成效,已成为当代语言及视觉语言模型的标准后训练范式。然而,该方案存在能力衰退的重大风险——若未采用正则化策略,模型在长期训练后可能遗忘基础技能。我们通过实证研究证实了这一担忧,发现开源推理模型在感知能力、事实一致性等核心性能上出现退化。虽然引入KL散度等正则化项有助于防止模型偏离基础模型,但这些项基于当前任务计算,无法保证广泛知识的留存。与此同时,跨异构领域的经验回放方法难以确定各训练目标的权重分配。为此,我们提出RECAP——一种具有动态目标重加权机制的通用知识保留回放策略。该重加权机制基于收敛性和不稳定性的短期信号进行在线自适应调整,将后训练重心从已饱和目标转向未达标或波动性目标。我们的方法采用端到端设计,无需训练额外模型或复杂调参即可直接应用于现有RLVR流程。基于Qwen2.5-VL-3B和Qwen2.5-VL-7B的基准测试表明,该方法不仅能有效保留通用能力,还可通过优化任务内奖励的灵活权衡进一步提升推理性能。
可视化作为一种领域特定但广泛应用的图像形式,是将复杂数据集转化为直观洞见的有效手段,其价值取决于数据呈现是否真实可信、信息传达是否清晰明确、视觉设计是否具有美感。然而,可视化质量的评估充满挑战:与自然图像不同,它需要同时考量数据编码准确性、信息表达力与视觉美学三个维度。尽管多模态大语言模型在自然图像美学评估中展现出潜力,但目前尚无系统性基准来衡量其在可视化评估方面的能力。为此,我们提出首个评估MLLMs可视化美学与质量性能的综合基准VisJudge-Bench。该基准包含3,090个来自真实场景的专家标注样本,涵盖32种图表类型中的单一可视化、多重可视化及仪表盘。系统性测试表明,即使最先进的MLLMs(如GPT-5)在判断力上仍与人类专家存在显著差距,其平均绝对误差达0.551,与人类评分相关性仅为0.429。针对此问题,我们提出专用于可视化美学与质量评估的模型VisJudge。实验结果表明,VisJudge显著缩小了与人类判断的差距,较GPT-5将平均绝对误差降至0.442(降低19.8%),与人类专家的一致性提升至0.681(提高58.7%)。基准已发布于https://github.com/HKUSTDial/VisJudgeBench。
超高分辨率文本到图像生成技术已取得显著进展,但仍面临两大挑战:一是缺乏大规模高质量的超高分辨率文本-图像数据集;二是现有方法未能针对超高分辨率场景下的细粒度细节合成设计专用训练策略。为解决首个挑战,我们构建了包含10万张高质量图像的UltraHR-100K数据集,该数据集兼具丰富语义标注与视觉保真度,每张图像分辨率均超过3K,并依据细节丰富度、内容复杂度与美学质量进行严格筛选。针对第二个挑战,我们提出频率感知的后训练优化方法,通过(i)细节导向时间步采样策略,使模型聚焦于细节关键的去噪阶段;(ii)基于离散傅里叶变换的软加权频率正则化技术,以柔性约束方式保持高频细节。在自建的UltraHR-eval4K基准测试上的大量实验表明,本方法显著提升了超高分辨率图像生成的细节质量与整体保真度。代码已开源于https://github.com/NJU-PCALab/UltraHR-100k。
思维链推理对于提升大型视觉语言模型的可解释性与可靠性至关重要。然而,现有训练算法如SFT、PPO和GRPO在未见推理任务上泛化能力有限,且过度依赖存在偏差的奖励模型。为解决这一难题,我们将LVLM的推理重新定义为后验推断问题,并提出基于摊销变分推理的可扩展训练算法。通过采用多样性驱动的强化学习算法,我们设计了一种面向词元级学习信号的稀疏奖励函数,该函数能激励生成多样化且高似然度的潜在思维链,从而突破确定性采样的局限并避免奖励黑客行为。此外,我们实现了贝叶斯推理缩放策略,通过边际似然替代高成本的N选优和束搜索,以高效筛选最优推理路径与答案。实验结果表明,该方法在七个推理基准测试中从效能、泛化性和可解释性三个维度全面提升了当前最先进LVLM的性能。
函数调用(FC)能力使大语言模型(LLMs)和智能体能够与外部工具交互,这是解决复杂现实问题的关键能力。随着该能力在先进AI系统中的重要性日益凸显,对高质量多轮对话训练数据的需求变得尤为迫切。现有数据合成方法(如随机环境采样或多智能体角色扮演)在真实场景中难以生成高质量数据。实际挑战主要体现在三个方面:定向模型训练、工具架构隔离以及多轮逻辑依赖性。为应对这些结构性缺陷,我们提出FunReason-MT——一种面向真实世界多轮工具使用的新型数据合成框架。该框架通过以下方式突破多轮FC数据的复杂性壁垒:1)采用环境-API图交互收集多样化高质量轨迹;2)通过高级工具查询合成简化复杂查询构建;3)利用引导式迭代链实现精细思维链生成。在伯克利函数调用排行榜(BFCLv3)上的评估表明,基于FunReason-MT生成数据训练的40亿参数模型在同等规模模型中达到最优性能,超越多数闭源模型。在BFCLv4上的进一步性能提升证实,FunReason-MT为智能体学习提供了可靠且鲁棒的数据支撑。
随着大型视觉语言模型(LVLM)在购物、健康、新闻等领域的广泛应用,它们正面临无处不在的 persuasive 内容。一个关键问题在于这些模型作为被说服者如何运作——即它们为何以及如何受到多模态 persuasive 输入的影响。理解模型对 persuasion 的易感性与不同 persuasive 策略的有效性至关重要,因为过度易受影响的模型可能采纳误导性信念、覆盖用户偏好,或在接触操纵性信息时生成不道德或不安全的输出。我们提出MMPersuade这一统一框架,用于系统研究LVLM中的多模态 persuasion 动态。该框架贡献包括:(i)一个综合多模态数据集,将图像和视频与商业、主观行为及对抗场景下的经典 persuasion 原则相匹配;(ii)基于第三方一致性评分和对话历史自估计 token 概率的评估框架,可量化 persuasion 有效性与模型易感性。通过对六种主流LVLM作为被说服者的研究,我们获得三项关键发现:(i)与纯文本相比,多模态输入显著提升 persuasion 有效性(及模型易感性),在错误信息场景中尤为突出;(ii)既存偏好声明虽降低易感性,但多模态信息仍保持 persuasion 优势;(iii)不同策略的效果因场景而异,互惠性在商业和主观场景中最有效,而可信度与逻辑性在对抗场景中占主导。通过联合分析 persuasion 有效性与模型易感性,MMPersuade为开发具有鲁棒性、偏好一致性且符合伦理规范的多模态 persuasion 应对模型奠定了理论基础。
在构件层面理解物体是推动计算机视觉、图形学和机器人技术发展的关键。尽管PartNet等数据集推动了三维部件理解的发展,但其依赖无纹理几何模型和专业标注的特点限制了可扩展性和实用性。我们推出新一代数据集PartNeXt,通过5大类别下超过23,000个高质量纹理三维模型及其细粒度层次化部件标注,有效解决了上述局限。我们在两项任务上对PartNeXt进行基准测试:(1)类别无关部件分割任务中,现有前沿方法(如PartField、SAMPart3D)在细粒度和叶级部件识别上表现不佳;(2)面向三维大语言模型的新基准——以部件为中心的三维问答任务,揭示了开放词汇部件定位能力的显著不足。此外,基于PartNeXt训练的Point-SAM模型相比PartNet实现显著性能提升,印证了该数据集在质量与多样性上的优势。通过融合可扩展标注、纹理感知标签和多任务评估,PartNeXt为结构化三维理解研究开辟了新路径。
大型语言模型(LLM)已证明,在大规模预训练的支持下,系统能够以极少监督快速适应语言领域的新问题。然而,这一成功经验未能有效迁移至视觉领域——包括LLM在内的各类模型仍在组合理解、样本效率和通用问题解决能力方面存在不足。我们探索视频扩散模型(VDM)作为弥合这一差距的潜在路径。通过对时空数据进行预训练,这类模型获得了对结构与动态特征的强归纳偏置,我们推测这种特性可支撑广泛的任务适应性。为验证该假设,我们设计了对照实验:为预训练的LLM和VDM分别配备轻量级适配器,使其在各自原生模态下执行任务。在ARC-AGI、ConceptARC、视觉游戏、路径规划和元胞自动机等基准测试中,VDM展现出优于语言模型的数据效率。综合结果表明,视频预训练所提供的归纳偏置有望推动视觉基础模型的发展。
生成式模型在根据简短文本描述合成高保真音频方面已取得显著进展。然而,利用自然语言编辑现有音频的研究仍处于探索不足的状态。现有方法要么需要完整描述编辑后的音频,要么受限于预定义的编辑指令而缺乏灵活性。本研究提出SAO-Instruct模型,该模型基于Stable Audio Open架构,能够使用任意自由形式的自然语言指令编辑音频片段。为训练模型,我们通过Prompt-to-Prompt、DDPM反演及人工编辑流程构建了包含音频编辑三元组(输入音频、编辑指令、输出音频)的数据集。尽管部分训练数据为合成数据,但模型对真实场景音频片段和未见过编辑指令均展现出良好泛化能力。实验表明,SAO-Instruct在客观指标上达到竞争性性能,并在主观听感测试中优于其他音频编辑方法。为促进后续研究,我们公开了代码与模型权重。
前沿人工智能代理作为科研助手的潜力日益显现,未来或能胜任长期开放的科研工作流程。然而要将代理应用于创新性研究,我们首先需要评估其工作的底层忠实度与正确性。为此我们推出ReplicationBench评估框架,通过测试代理能否复现天体物理学领域的研究论文来评估其科研辅助能力。天体物理学研究高度依赖档案数据和计算分析,几乎无需实体实验,这使其成为检验科研AI代理的理想试验场。我们将每篇论文拆解为若干任务,要求代理复现论文的核心贡献,包括实验设置、公式推导、数据分析和代码库构建。每个任务均与论文原作者合作设计,聚焦关键科学结论,从而实现对忠实度(遵循原始方法)和正确性(结果技术准确性)的客观评估。ReplicationBench对当前前沿语言模型极具挑战性:即使表现最佳的模型得分也低于20%。通过与领域专家共同分析任务执行轨迹,我们发现了科研代理存在丰富多样的失效模式。该基准首次建立了经专家验证的论文级天体物理研究任务体系,揭示了可推广至其他数据驱动科学领域的代理性能洞见,并为衡量AI代理在科研中的可靠性提供了可扩展的评估框架。
在当今快速扩张的数据环境中,从非结构化文本中提取知识对于实时分析、时序推理和动态记忆框架至关重要。然而,传统静态知识图谱构建方法常忽视现实数据的动态性和时效性,限制了其对持续变化的适应能力。此外,近期避免领域特定微调或预构建本体依赖的零样本/少样本方法普遍存在多次运行结果不稳定、关键事实覆盖不完整的问题。为应对这些挑战,我们提出ATOM(自适应优化)方法——一种基于少样本学习且可扩展的时序知识图谱构建方案,能够从非结构化文本中持续更新知识。ATOM将输入文档拆分为最小化的自包含"原子事实",提升知识提取的完备性与稳定性;随后通过区分信息观测时间与有效时间的双时间建模,从原子事实构建时序知识图谱;最终通过并行合并形成完整图谱。实证评估表明,相较于基线方法,ATOM实现了约18%的完备性提升、约17%的稳定性改进及超过90%的延迟降低,展现出动态时序知识图谱构建的强大扩展潜力。
大型语言模型(LLMs)展现出令人担忧的双重性:既能实现卓越的泛化能力,又可能对其训练数据产生脆弱的机械记忆。这种不可预测性削弱了其在高风险应用中的可靠性。本研究提出统一框架来理解、识别和控制这两种不同的推理模式。首先,我们基于信息瓶颈原理构建理论模型,将泛化形式化为对压缩化任务相关表征的学习,而将记忆视为压缩失败的表现。基于该理论,我们开发了动态模式导向(DMS)这一新型推理时算法,包含两个核心组件:(1)基于因果关系的轻量级线性探针,用于实时识别模型对记忆机制的瞬时依赖;(2)动态激活导向机制,将模型计算过程引导至预定义的泛化电路。我们将DMS框架定义为一种自适应自对比解码机制。在推理任务和真实性任务上的实验表明,DMS能显著提升逻辑一致性与事实准确性,为增强LLM可靠性提供了原理性解决方案。
视觉-语言表征的对齐赋予当前视觉-语言模型(VLM)强大的多模态推理能力。然而,由于难以将多模态表征的语义映射到统一概念集,该对齐组件的可解释性仍未得到充分研究。为解决此问题,我们提出VL-SAE——一种将视觉-语言表征编码至隐藏层激活的稀疏自编码器。其隐藏层中的每个神经元与由语义相似的图像和文本所表征的概念相关联,从而通过统一概念集解释这些表征。为建立神经元-概念关联,我们在自监督训练中促使语义相似的表征呈现一致的神经元激活。首先,为度量多模态表征的语义相似度,我们基于余弦相似度以显式形式执行其对齐;其次,通过构建基于距离的编码器和两个模态特定解码器,确保语义相似表征的激活一致性。在多种VLM(如CLIP、LLaVA)上的实验表明,VL-SAE在解释和增强视觉-语言对齐方面具有卓越能力。在解释层面,可通过比较视觉与语言表征与概念的语义来理解其对齐关系;在增强层面,通过在概念层级对齐视觉-语言表征能强化对齐效果,从而提升零样本图像分类和幻象消除等下游任务性能。代码已开源于https://github.com/ssfgunner/VL-SAE。
近期,基于GRPO的强化学习在优化流匹配模型方面取得显著进展,有效提升了模型与任务特定奖励的匹配度。这类框架通过重要性比例剪裁机制约束过度自信的正负梯度更新。然而实践中我们发现,重要性比例分布存在系统性偏移——其均值低于1且不同时间步的方差差异显著。这种左偏且不稳定的分布阻止了正优势样本进入剪裁区域,导致机制无法有效约束过度自信的正向更新。因此策略模型不可避免地进入隐式过优化阶段:虽然代理奖励持续上升,但图像质量、文本提示对齐等关键指标急剧恶化,最终使学习到的策略无法实际应用。 为解决该问题,我们提出GRPO-Guard——一种对现有GRPO框架简单而有效的增强方案。该方法通过比率归一化技术重建平衡且时序一致的重要性比例,确保PPO剪裁机制能有效约束去噪过程中所有时间步的有害更新。同时,梯度重加权策略通过均衡不同噪声条件下的策略梯度,防止特定时间步区域产生过度更新。这些设计共同构成受控剪裁机制,在无需重度KL正则化的情况下稳定优化过程,显著缓解隐式过优化现象。基于多种扩散模型骨干(如SD3.5M、Flux.1-dev)和多样化代理任务的实验表明,GRPO-Guard在维持甚至提升生成质量的同时,能显著降低过优化现象。
结构拓扑优化是工程设计的核心环节,但由于复杂的物理约束和硬性条件限制,其计算过程始终面临高强度挑战。现有深度学习方法受限于固定方形网格、少量手动编码的边界条件以及后验优化模式,难以实现通用化部署。我们提出"任意拓扑优化"框架,该基础模型能直接预测任意长宽比、分辨率、体积分数、载荷及约束条件下的最小柔度构型。OAT融合了分辨率与形状无关的自编码器、隐式神经场解码器,以及基于OpenTO数据集训练的条件潜空间扩散模型——该新型数据库包含220万个优化结构,覆盖200万种独特边界条件配置。在四项公开基准测试和两项高难度未知场景测试中,OAT相较于现有最优模型将平均柔度降低达90%,并在单GPU上实现64×64至256×256分辨率及10:1高宽比范围内的亚秒级推理。这些成果确立了OAT作为物理感知拓扑优化的通用、快速且分辨率无关的框架地位,同时提供的大规模数据集将推动逆向设计生成模型的深入研究。代码与数据详见:https://github.com/ahnobari/OptimizeAnyTopology。
医疗视觉语言模型(V-LM)的可靠推理不仅需要精准预测,更要求文本推理与视觉证据间保持透明对齐。尽管思维链(CoT)提示在医疗视觉问答(VQA)中展现出潜力,但尚无大规模专家级数据集能提供具备精确视觉定位的渐进式推理。我们推出首个大规模专家标注数据集S-Chain,包含12,000张带边界框的医学图像及结构化视觉CoT(SV-CoT),显式关联视觉区域与推理步骤。该数据集进一步支持16种语言,总计超70万VQA问答对,具备广泛的多语言适用性。基于S-Chain,我们对前沿医疗V-LM(ExGra-Med、LLaVA-Med)及通用V-LM(Qwen2.5-VL、InternVL2.5)进行基准测试,发现SV-CoT监督能显著提升模型可解释性、定位保真度与鲁棒性。除基准测试外,我们还探究其与检索增强生成的协同效应,揭示自回归推理过程中领域知识与视觉定位的交互机制。最后,我们提出一种强化视觉证据与推理对齐的新机制,同步提升可靠性及效率。S-Chain为 grounded 医疗推理树立新基准,为构建更可信、可解释的医疗V-LM开辟道路。
我们针对大语言模型处理文化根植语言的能力展开全面评估,重点考察其理解并实际运用蕴含地方知识与文化细微差别的比喻性表达的能力。以比喻性语言作为文化细微差别和地方知识的观测指标,我们设计了针对阿拉伯语和英语的语境理解、语用实践及内涵解读三项评估任务。通过对22个开源与闭源大语言模型进行测试,涵盖埃及阿拉伯语习语、多方言阿拉伯谚语及英语谚语。研究结果呈现出稳定层级:阿拉伯谚语平均准确率较英语谚语低4.29%,而埃及习语的表现又比阿拉伯谚语低10.28%。在语用实践任务中,准确率相较理解任务下降14.07%,但提供包含习语的语境语句可使准确率提升10.66%。模型在内涵意义解读方面也存在困难,即使在标注者间一致性达100%的习语上,模型与人类标注者的最高吻合度也仅为85.58%。这些发现表明比喻性语言可作为文化推理能力的有效诊断工具:大语言模型虽能解读比喻意义,但在恰当运用方面仍面临挑战。为推进后续研究,我们发布了首个专为比喻理解与语用评估设计的埃及阿拉伯语习语数据集Kinayat。
专利文本嵌入技术能够实现现有技术检索、技术图谱构建和专利分析,但现有基准测试未能充分捕捉专利领域的特有挑战。我们推出PatenTEB综合基准,涵盖检索、分类、复述和聚类四大类共15项任务,包含206万个样本。该基准采用领域分层划分策略、领域特定难负例挖掘技术,并系统覆盖了通用嵌入基准所缺失的非对称片段-文档匹配场景。通过多任务训练,我们构建了参数规模从6700万至3.44亿、上下文长度达4096标记的patembed模型系列。外部验证表明其强泛化能力:patembed-base在MTEB BigPatentClustering.v2上达到当前最优水平(V-measure值0.494 vs 原最佳0.445),而patembed-large在DAPFAM上实现0.377的NDCG@100指标。系统消融实验揭示:多任务训练虽对基准指标有轻微影响,但能显著提升外部泛化能力;领域预训练初始化在不同任务族中均能带来持续优势。所有资源将在https://github.com/iliass-y/patenteb 公开。 关键词:专利检索,语句嵌入,多任务学习,非对称检索,基准评估,对比学习。