每日精选AI研究论文及翻译
我们推出STEP3-VL-10B,这是一款轻量级开源基础模型,旨在重新定义紧凑效率与前沿多模态智能之间的平衡。该模型通过两大战略创新实现突破:首先采用基于1.2万亿多模态令牌的统一全参数解冻预训练策略,将语言对齐的感知编码器与Qwen3-8B解码器融合,建立内生的视觉-语言协同机制;其次构建包含超千轮强化学习的规模化后训练流程。关键创新在于引入并行协同推理(PaCoRe)机制,通过动态分配计算资源实现可扩展的感知推理,探索并融合多样化视觉假设。最终,这个仅100亿参数的紧凑模型在性能上媲美或超越规模10-20倍的模型(如GLM-4.6V-106B、Qwen3-VL-235B),并与Gemini 2.5 Pro、Seed-1.5-VL等顶级专有模型旗鼓相当。它以92.2%的MMBench得分和80.11%的MMMU得分刷新性能纪录,在复杂推理任务中更表现卓越——AIME2025达到94.43%,MathVision达到75.95%。我们完整开源模型套件,为社区提供强大、高效且可复现的基准系统。
作为人类活动的枢纽,城市地表蕴含着丰富的语义实体。从卫星图像中分割这些多样化实体对一系列下游应用至关重要。当前先进的语义分割模型能够可靠地分割由物理属性定义的实体(如建筑物、水体),但在处理社会属性定义的类别(如学校、公园)时仍面临挑战。本研究通过视觉语言模型推理实现了社会语义分割。为此,我们推出了名为SocioSeg的城市社会语义分割数据集,该全新资源包含卫星影像、数字地图以及按层级结构组织的社会语义实体像素级标注。此外,我们提出名为SocioReasoner的创新视觉语言推理框架,通过跨模态识别与多阶段推理模拟人类识别标注社会语义实体的认知过程。我们采用强化学习优化这一不可微分流程,充分激发视觉语言模型的推理能力。实验表明,该方法在超越现有最优模型的同时展现出强大的零样本泛化性能。我们的数据集与代码已开源:https://github.com/AMAP-ML/SocioReasoner。
强化学习(RL)已成为大型语言模型(LLM)后训练的核心范式,尤其在复杂推理任务中表现突出,但其常面临探索坍缩问题:策略过早集中于少数主导推理模式,虽能提升单次采样通过率(pass@1),却限制了推演层级的多样性并制约了多次采样通过率(pass@k)的提升。我们认为这一问题的根源在于对局部令牌行为的正则化约束,而非对解决方案集合多样性的考量。为此,我们提出独特性感知强化学习——一种显式奖励采用罕见高层策略的正确解决方案的推演层级目标。该方法基于LLM的评判器对同一问题的推演结果进行高层策略聚类(忽略表面差异),并依据聚类规模对策略优势进行反向加权。由此,正确但新颖的策略将比冗余策略获得更高奖励。在数学、物理和医学推理基准测试中,本方法在大规模采样预算下持续提升pass@k指标,在保持pass@1不损失的同时提高pass@k曲线下面积(AUC@K),并通过持续探索在大规模应用中发掘出更多样的解决策略。
多智能体系统已发展为多种应用场景中实用的LLM驱动协作体,其通过多样性与交叉验证获得稳健性。然而多智能体强化学习(MARL)训练存在资源消耗大、稳定性差的问题:智能体间的协同适应会引发环境非平稳性,且奖励信号往往稀疏且高方差。为此,我们提出多智能体测试时强化学习(MATTRL)框架,该框架在推理阶段将结构化文本经验注入多智能体决策过程。MATTRL通过组建多专家团队开展多轮讨论,检索并整合测试时经验,最终达成共识决策。我们还研究了信用分配机制,用于构建轮次级经验池并将其重新注入对话流程。在医学、数学、教育等挑战性测试基准上,MATTRL相较多智能体基线平均准确率提升3.67%,较单智能体基线提升8.67%。消融实验检验了不同信用分配方案,并详细比较了其对训练结果的影响。MATTRL为分布偏移鲁棒的多智能体推理提供了一条稳定、高效且无需调参的实现路径。
基于指令的图像编辑是生成式AI中发展最快的领域之一。过去一年间,该领域已达到全新水平,数十个开源模型与高性能商业系统相继发布。然而,目前仅有少数开源方法能实现实用级质量。此外,作为主流技术路线的扩散模型骨架通常参数量庞大、计算成本高昂,在多数部署和研究场景中,广泛使用的变体通常包含60亿至200亿参数。本文提出了一种紧凑型高通量的指令图像编辑流程:采用现代20亿参数的Qwen3-VL模型指导编辑过程,配合16亿参数的扩散模型Sana1.5进行图像生成。我们在架构设计、数据处理、训练配置和评估标准上均以低成本推理与严格源一致性为目标,同时保持该规模下主要编辑类别的高质量输出。在ImgEdit和GEdit基准测试中,本方法达到或超越了参数规模数倍、推理成本更高的基线模型性能,尤其在需要保持输入图像特性的编辑任务上表现突出,包括属性调整、物体移除、背景编辑及定向替换等。该模型仅需24GB GPU显存,在NVIDIA H100上以BF16精度生成2K分辨率编辑图像仅需约4秒,且无需额外推理优化或蒸馏处理。
科学智能的核心挑战不仅在于推理本身,更在于在开放的科学世界中创建计算方法的能力。现有基于大语言模型的智能体依赖静态预定义的工具库,这种范式在工具稀疏、异构且本质不完整的科学领域存在根本缺陷。本文提出测试时工具演化新范式,使智能体能够在推理过程中合成、验证并演化可执行工具。通过将工具从固定资源转变为问题驱动的产物,该范式克服了静态工具库的僵化性与长尾局限性。为支持严谨评估,我们构建了SciEvo基准数据集,包含1,590项科学推理任务及925个自动演化工具。大量实验表明,该范式在准确率与工具效率上均达到最先进水平,同时实现了计算工具的有效跨领域迁移。代码与基准数据集已发布于https://github.com/lujiaxuan0520/Test-Time-Tool-Evol。
人工智能向代理化科学发展的进程,目前正受限于超长程自主性这一关键挑战——即在持续数日或数周的实验周期中保持战略连贯性与迭代修正的能力。尽管大语言模型在短程推理中展现出卓越能力,但在现实研究的高维度、延迟反馈环境中,它们易被执行细节淹没,难以将稀疏反馈整合为连贯的长期指导。本文提出ML-Master 2.0,一种掌握超长程机器学习工程的自主智能体,该领域是科学发现的典型缩影。通过将情境管理重构为认知积累过程,我们引入受计算机系统启发的分层认知缓存(HCC)架构,实现经验随时间推移的结构化分层。该架构通过将瞬时执行轨迹动态提炼为稳定知识与跨任务智慧,使智能体能够将即时执行与长期实验策略解耦,有效突破静态上下文窗口的扩展限制。在OpenAI的MLE-Bench上进行的24小时预算评估中,ML-Master 2.0实现了56.44%的顶尖奖牌获得率。我们的研究表明,超长程自主性为人工智能提供了可扩展的蓝图,使其能够超越人类既有经验的复杂度进行自主探索。
视觉语言预训练(VLP)模型通过对比预训练从大规模图文对中学习,在下游任务中展现出强大性能。随着海量英文图文数据集(如COYO-700M和LAION-400M)的发布,CLIP、SigLIP等模型已在跨模态检索、图像描述等任务中得到广泛应用。然而,由于高质量中文图文数据的稀缺,中文视觉语言预训练的发展明显滞后。为弥补这一差距,我们开发了一套完整的高质量中文跨模态数据集构建流程,并由此提出包含1亿个从Common Crawl收集的图文对数据集——丹青(DanQing)。与现有数据集不同,丹青通过更严格的筛选流程进行构建,数据质量显著提升。此外,该数据集主要基于2024-2025年的网络数据构建,能使模型更好地捕捉语义演变趋势,从而具备更强的实用价值。我们通过持续预训练SigLIP2模型将丹青与现有数据集进行对比实验,结果表明丹青在中文零样本分类、跨模态检索及基于LMM的评估等下游任务中均取得更优性能。为促进中文视觉语言预训练研究的发展,我们将遵循知识共享CC-BY 4.0协议开源丹青数据集。
近期视频生成模型展现出帧间推理链(CoF)能力,实现了逐帧视觉推断。凭借这一特性,视频模型已成功应用于多种视觉任务(如迷宫求解、视觉谜题)。然而,由于文本到图像(T2I)生成过程中缺乏明确的视觉推理起点和可解释的中间状态,其在增强T2I生成方面的潜力尚未得到充分探索。为弥补这一差距,我们提出CoF-T2I模型,通过渐进式视觉优化将CoF推理融入T2I生成——以中间帧作为显式推理步骤,最终帧作为输出结果。为构建此类显式生成过程,我们构建了CoF-Evol-Instruct数据集,其中包含模拟从语义到美学生成过程的CoF轨迹链。为进一步提升质量并避免运动伪影,我们实现了每帧独立编码机制。实验表明,CoF-T2I显著超越基础视频模型,在挑战性基准测试中达到竞争优势:GenEval得分0.86,Imagine-Bench得分7.468。这些结果证明了视频模型在推进高质量文本到图像生成方面的巨大潜力。
近期,文本到图像(T2I)扩散模型(DMs)的进展实现了基于多样化文本提示的高质量视觉合成。然而,大多数现有T2I扩散模型——即便是配备基于大语言模型(LLM)的文本编码器的模型——仍停留在文本-像素映射器的阶段:它们仅将LLM用作文本编码器,未能利用其内在推理能力来推断文本提示对应的视觉内容。为突破这种字面化生成的局限,我们提出“先思考后生成”(T2G)范式,通过激励基于LLM的文本编码器对原始用户提示进行推理与重写,并将重写后提示的状态作为扩散条件。为实现这一目标,我们首先通过轻量级监督微调激活LLM编码器的“思考-重写”模式,随后采用Dual-GRPO协同优化LLM编码器与扩散主干网络,确保对上下文的忠实推理和语义的精准呈现。具体而言,文本编码器通过基于图像的奖励机制强化其对世界知识的推断与回忆能力,而扩散主干网络则被推动生成语义一致且视觉连贯的图像。实验表明,在基于推理的图像生成与编辑基准测试中,该方法在事实一致性、语义对齐和视觉真实性方面取得显著提升,WISE分数达到0.79,与GPT-4表现近乎持平。我们的研究成果为构建具备推理、表达与演示能力的下一代统一模型迈出了重要一步。
大规模视频扩散与流模型已在高质量视频生成领域取得显著成功,但由于其多步采样过程效率低下,在实时交互应用中的使用仍受限。本研究提出过渡匹配蒸馏(TMD)框架,通过将视频扩散模型蒸馏为高效少步生成器来解决该问题。TMD的核心思想是将扩散模型的多步去噪轨迹与少步概率转移过程相匹配,其中每个转移步骤通过轻量级条件流模型实现。为实现高效蒸馏,我们将原始扩散主干网络分解为两部分:(1)主骨干网络(包含多数早期层),用于在外部转移步骤中提取语义表征;(2)流头部网络(由最后几层构成),利用这些表征执行多重内部流更新。给定预训练视频扩散模型,我们首先为其引入流头部结构,将其适配为条件流映射。随后通过在每个转移步骤中实施流头部展开策略,对带有流头部的学生模型进行分布匹配蒸馏。基于Wan2.1的1.3B和140亿参数文本到视频模型的广泛实验表明,TMD在生成速度与视觉质量间实现了灵活而优越的平衡。特别值得注意的是,在相近推理成本下,TMD在视觉保真度和提示词遵循度方面均优于现有蒸馏模型。项目页面:https://research.nvidia.com/labs/genair/tmd
工具集成推理(TIR)通过将推理步骤与外部工具调用交织执行,赋能大语言模型处理复杂任务。然而,现有强化学习方法通常依赖结果级或轨迹级奖励,对轨迹中所有步骤赋予均等优势。这种粗粒度的信用分配机制难以区分有效工具调用与冗余或错误调用,尤其在长视野多轮交互场景中更为突出。为此,我们提出MatchTIR框架,通过基于二分图匹配的轮次级奖励分配和双层级优势估计实现细粒度监督。具体而言,我们将信用分配建模为预测轨迹与真实轨迹间的二分图匹配问题,采用两种分配策略推导稠密的轮次级奖励。此外,为平衡局部步骤精度与全局任务成功率,我们引入融合轮次级与轨迹级信号的双层级优势估计方案,为每个交互轮次分配差异化优势值。在三个基准测试上的大量实验证明了MatchTIR的优越性。值得注意的是,我们的40亿参数模型在长视野和多轮任务中表现尤为突出,超越了多数80亿参数竞品。代码已开源:https://github.com/quchangle1/MatchTIR。
当前最强的视频语言模型(VLM)仍为闭源系统。顶尖的开源权重模型要么依赖闭源VLMs生成的合成数据进行知识蒸馏,要么未公开其训练数据与方案。这导致开源社区缺乏改进视频(及图像)语言模型技术前沿的基础支撑。关键在于,许多下游应用不仅需要高层视频理解能力,更需像素级的指向或追踪定位能力——即便是闭源模型也尚未具备此功能。我们推出Molmo2系列VLMs,该模型在开源模型中达到技术前沿水平,并在单图像、多图像及视频任务中展现出卓越的点驱动定位新能力。核心贡献在于构建了7个新视频数据集与2个多图像数据集,包括用于预训练的精细化视频描述数据集、用于微调的自由形式视频问答数据集、含复杂查询的新物体追踪数据集,以及创新的视频指向定位数据集——所有数据均未使用闭源VLMs采集。我们还提出采用高效数据打包与消息树编码方案的训练方案,证明视觉令牌的双向注意力机制与新颖的令牌权重策略可提升性能。我们的8B旗舰模型在短视频、计数和描述任务上超越同类开源权重与数据模型,在长视频任务中表现相当。在视频定位方面,Molmo2显著优于Qwen3-VL等开源模型(视频计数准确率35.5对29.6),并在某些任务上超越Gemini 3 Pro等闭源模型(视频指向F1值38.4对20.0,视频追踪J&F值56.2对41.1)。
我们提出Alterbute——一种基于扩散模型的图像物体本征属性编辑方法。该方法能够改变物体的颜色、纹理、材质甚至形状,同时保持其感知身份与场景上下文。现有方法要么依赖难以保持身份特征的无监督先验,要么采用过度严格的监督机制限制了有意义的本质属性变化。我们的技术核心在于:(i)采用宽松的训练目标,使模型能够根据身份参考图像、描述目标本征属性的文本提示、以及定义外部背景的背景图像与物体掩码,同时改变本征与非本征属性。在推理阶段,通过复用原始背景和物体掩码来限制外部变化,从而确保仅改变目标本征属性;(ii)引入视觉命名实体(VNE)——细粒度的视觉身份类别(如"保时捷911卡雷拉"),将具有共同身份特征但允许本征属性差异的物体进行归类。我们利用视觉语言模型从大型公共图像数据集中自动提取VNE标签和本征属性描述,实现了可扩展的身份保持监督。实验表明,Alterbute在保持物体身份的本征属性编辑任务上优于现有方法。
尽管基于大语言模型的智能体能够通过调用外部工具与环境交互,但其扩展能力也同时放大了安全风险。实时监控智能体在步骤层级的工具调用行为,并在不安全执行前主动干预,对于智能体部署至关重要,然而这一领域的研究仍显不足。本研究首先构建了TS-Bench——一个面向大语言模型智能体工具调用安全检测的新型步骤级基准测试平台。随后我们采用多任务强化学习开发了防护模型TS-Guard,该模型通过分析交互历史记录,在执行前主动检测不安全的工具调用行为。它能评估请求危害性及行为-攻击关联度,生成可解释、可泛化的安全判定与反馈。此外,我们提出TS-Flow这一防护反馈驱动的智能体推理框架,该框架在提示注入攻击场景下,能将ReAct风格智能体的有害工具调用平均减少65%,并使良性任务完成率提升约10%。
大型语言模型(LLM)与多模态大语言模型(MLLM)的快速发展显著提升了语言和视觉领域的推理、感知及生成能力。然而,这些技术进步是否同步带来安全性的对等提升尚不明确,部分原因在于现有评估实践局限于单一模态或威胁模型而呈现碎片化。本报告对GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包1.8、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5等7款前沿模型开展综合性安全评估。我们采用融合基准测试、对抗性评估、多语言评估与合规性评估的统一方案,在语言、视觉-语言及图像生成三种场景下对各模型进行测评。通过将多维度评估结果整合为安全排行榜与模型安全画像,揭示出高度异质化的安全格局:GPT-5.2在各项评估中展现出持续稳定且均衡的安全表现,而其他模型则在基准安全、对抗对齐、多语言泛化及合规性方面存在显著权衡。语言与视觉-语言模态在对抗性评估中均表现出明显脆弱性——尽管所有模型在标准基准测试中表现良好,但其安全性均出现大幅滑坡。文生图模型在受监管视觉风险类别中实现相对更强的对齐性,但在对抗性提示或语义模糊提示下仍显脆弱。总体而言,研究结果表明前沿模型的安全性本质上是多维度的,其表现受模态、语言和评估方案共同影响,这凸显了建立标准化安全评估体系的重要性,以准确衡量现实风险并指导负责任的模型开发与部署。
从视觉观察中推断物理行为是推动机器在物理世界中实现智能的基础能力。要实现这一目标,需要涵盖广泛领域的大规模开放词汇视频动作数据集。我们推出Action100M数据集——该数据集从120万条互联网教学视频(总时长14.6年)构建而成,生成约1亿个具有开放词汇动作标注和丰富描述文本的时序定位片段。Action100M通过全自动流程生成:(i) 使用V-JEPA 2嵌入向量进行分层时序分割;(ii) 生成组织为描述树的多层级帧/片段描述;(iii) 通过推理模型在多轮自优化流程下聚合证据,输出结构化标注(简洁/详细动作、执行者、简洁/详细描述)。基于Action100M训练VL-JEPA模型显示出持续的数据规模增益,并在多样化动作识别基准测试中展现出强大的零样本性能,这使Action100M成为视频理解与世界建模可扩展研究的新基石。
交互式人形视频生成技术致力于合成能够通过连续响应式视频与人类互动的逼真视觉智能体。尽管视频合成领域近期取得进展,现有方法仍难以兼顾高保真合成与实时交互需求。本文提出FlowAct-R1框架,专为实时交互式人形视频生成设计。该框架基于MMDiT架构,可实现任意时长的流式视频合成,同时保持低延迟响应。我们引入分块扩散强制策略,并结合新型自强制变体,以缓解连续交互过程中的误差累积,确保长期时间一致性。通过高效蒸馏与系统级优化,本框架在480p分辨率下可实现稳定25fps帧率,首帧生成时间仅约1.5秒。所提方法提供整体性与细粒度兼备的全身控制,使智能体在交互场景中能自然过渡不同行为状态。实验结果表明,FlowAct-R1在保持跨角色风格鲁棒泛化能力的同时,实现了卓越的行为生动性与感知真实度。
我们推出了一系列开源音乐基础模型,旨在推动跨任务与多模态的大规模音乐理解与生成。该框架包含四大核心组件:(1) HeartCLAP音频-文本对齐模型;(2) HeartTranscriptor面向真实音乐场景优化的强健歌词识别模型;(3) HeartCodec低帧率(12.5Hz)高保真音乐编解码器,在捕捉长程音乐结构的同时保留细粒度声学细节,并支持高效自回归建模;(4) HeartMuLa基于大语言模型的歌曲生成模型,可在丰富用户可控条件下(如文本风格描述、歌词及参考音频)合成高保真音乐。此外,该模型提供两种专项模式:(i)细粒度音乐属性控制,允许用户通过自然语言指令指定不同歌曲段落(如前奏、主歌、副歌)的风格;(ii)短时长趣味音乐生成,适用于短视频背景音乐场景。值得注意的是,当参数规模扩展至70亿时,HeartMuLa性能实现显著提升。我们首次证明,利用学术级数据与GPU资源即可复现达到Suno级别的商业级系统。期待这些基础模型能为未来研究提供强基准,并推动多模态内容生产的实际应用。
大型语言模型(LLMs)已成为进化搜索的强大执行者,但高效搜索框架的设计仍处于零散状态。尽管现有融入LLM的循环系统展现出潜力,但其进化过程管理缺乏系统性方法。我们识别出三种典型失效模式:情境污染(实验历史偏差影响后续候选生成)、模式坍塌(智能体因探索-利用失衡陷入局部最优)以及弱协作(僵化的交叉策略无法有效利用并行搜索轨迹)。为此,我们提出进度感知一致进化框架(PACEvolve),通过稳健控制智能体情境与搜索动态来应对这些挑战。该框架融合层级情境管理(HCM)与剪枝机制解决情境污染问题;采用动量回溯(MBB)逃离局部最优;通过自适应采样策略统一回溯与交叉操作,实现动态搜索协调(CE),使智能体能在内部优化与跨轨迹协作间取得平衡。实验表明,PACEvolve为持续长周期自我优化提供了系统化路径,在LLM-SR和KernelBench基准测试中达到最优水平,并在Modded NanoGPT任务上发现了超越现有记录的解决方案。
生成满足多种理化性质精确数值约束的分子至关重要且充满挑战。尽管大语言模型(LLM)具有强表达能力,但在缺乏外部结构和反馈的情况下,其精确多目标控制与数值推理能力仍显不足。我们提出M olGen——一个面向多属性约束的分子生成框架,该框架采用片段级别的检索增强双阶段架构。第一阶段:原型生成。通过多智能体推理器执行基于检索的片段级编辑,生成接近可行域的候选分子。第二阶段:基于强化学习的细粒度优化。采用群组相对策略优化(GRPO)训练的片段级优化器实施单跳或多跳优化,在调控编辑复杂度与原型偏离度的同时,显式最小化目标属性误差。支撑两个阶段的是自动构建的大规模数据集,其中包含片段编辑的推理链与实测属性差值,实现了确定性、可复现的监督控制与可控多跳推理。与现有研究不同,本框架通过利用片段增强分子推理能力,并支持针对数值目标的可控优化。在两组属性约束(QED、LogP、分子量以及HOMO、LUMO)下的生成实验表明,该方法在分子有效性和多属性目标精确满足度上均取得稳定提升,性能优于主流大语言模型与基于图的算法。
当前顶尖的视频生成模型虽能产出视觉效果出色的内容,却常违背基础物理规律,限制了其实用性。尽管有观点将此归因于预训练阶段对物理规律理解不足,我们发现物理合理性的缺失还源于欠佳的推理策略。为此,我们提出WMReward方法,将提升视频生成的物理合理性视为推理阶段的对齐问题。具体而言,我们利用隐式世界模型(本文采用VJEPA-2)的强物理先验作为奖励函数,通过搜索并引导多条候选去噪轨迹,实现测试阶段计算资源的灵活扩展以提升生成性能。实验表明,该方法在图像条件生成、多帧条件生成及文本条件生成场景下均显著提升物理合理性,并获人类偏好研究验证。在ICCV 2025感知测试物理智商挑战赛中,我们以62.64%的最终得分夺得冠军,较此前最优结果提升7.42%。本研究证明了利用隐式世界模型提升视频生成物理合理性的可行性,其价值超越特定模型实现或参数化方案。
统一图像生成与编辑模型在稠密扩散变换器架构中面临严重的任务干扰问题,共享参数空间必须在相互冲突的目标(如局部编辑与主体驱动生成)之间做出妥协。虽然稀疏混合专家范式是颇具前景的解决方案,但其门控网络仍保持任务无关性,仅基于局部特征运作而无法感知全局任务意图。这种任务无关特性阻碍了有意义的专业化分工,未能从根本上解决任务干扰问题。本文提出一种将语义意图注入MoE路由的新框架:通过分层任务语义标注方案构建结构化任务描述符(如作用范围、任务类型、内容保留要求),并设计预测对齐正则化机制使内部路由决策与高层任务语义对齐。该正则化使门控网络从任务无关执行器演进为智能调度中心。实验表明,我们的模型有效缓解了任务干扰,在保真度与生成质量上超越稠密基线模型,分析结果证实专家网络自发形成了清晰且语义关联的专业化分工。
指令遵循对大型语言模型至关重要,但现实指令常包含顺序依赖和条件分支等逻辑结构。现有方法通常构建带并行约束的数据集并优化平均奖励,忽略了逻辑依赖关系并产生噪声信号。我们提出逻辑结构化训练框架LSRIF,显式建模指令逻辑。首先构建包含并行、顺序、条件等约束结构的LSRInstruct数据集,随后设计结构感知奖励方法:对并行结构采用平均聚合,对顺序结构实施失败惩罚传播,对条件分支进行选择性奖励。实验表明LSRIF在指令遵循(域内/域外)和通用推理方面带来显著提升。分析发现,显式逻辑结构学习能引发注意力层的参数更新,并增强对约束条件和逻辑运算符的令牌级关注。
在财报电话会议中检测规避性回答对财务透明度至关重要,但大规模标注数据集的缺乏阻碍了研究进展。我们推出EvasionBench数据集,包含3万个训练样本和1000个人工标注测试样本(科恩卡帕系数0.835),涵盖三个规避等级。本研究的核心创新在于提出多模型标注框架,其关键洞见是:前沿大语言模型之间的分歧信号标志着对训练最具价值的困难样本。我们通过挖掘两个强标注模型产生冲突的边界案例,并引入裁判模型确定最终标签。该方法比单模型蒸馏技术性能提升2.4%,尽管训练损失更高(0.421对比0.393),但裁判模型确定的样本显著提升了泛化能力——证明分歧挖掘可视为隐式正则化手段。基于此训练的Eva-4B模型(40亿参数)达到81.3%的准确率,较基础模型提升25个百分点,仅以微小推理成本逼近前沿大语言模型性能。
当前多模态潜在推理常依赖外部监督(如辅助图像),忽略了内在的视觉注意力动态机制。本研究揭示了蒸馏过程中存在的关键性感知鸿沟:学生模型往往在关注完全不同的视觉区域时模仿教师的文本输出,实质上依赖于语言先验而非接地感知。为弥合这一差距,我们提出LaViT框架——通过对齐潜在视觉思维而非静态嵌入来实现优化。LaViT采用课程式感官门控机制,强制学生在文本生成前自回归地重构教师的视觉语义与注意力轨迹,从而规避捷径学习。大量实验表明,LaViT显著增强了视觉基础能力,在复杂推理任务上最高可获得+16.9%的性能提升,使紧凑的30亿参数模型能够超越更大规模的开源变体及GPT-4o等专有模型。
诸如DUSt3R不变点图这类强大的3D表征技术,通过编码三维形状与相机参数,显著推动了前馈式三维重建的发展。虽然点图技术默认处理静态场景,但动态点图(DPM)通过额外表征场景运动,将这一概念拓展至动态三维内容。然而现有DPM仅适用于图像对,且与DUSt3R类似,在处理超过两个视角时仍需通过优化进行后处理。我们认为将DPM应用于视频场景更具实用价值,并由此提出V-DPM予以验证。首先,我们展示了如何构建适用于视频输入的DPM框架,以最大化表征能力、促进神经网络预测,并实现预训练模型的复用。其次,基于近期强大的三维重建器VGGT实现了这些构想。尽管VGGT原针对静态场景训练,但我们证明仅需少量合成数据即可将其改造为高效的V-DPM预测器。该方法在动态场景的三维与四维重建中达到业界最优性能。特别值得注意的是,与P3等VGGT的最新动态扩展不同,DPM不仅能重建动态深度,还能还原场景中每个点的完整三维运动轨迹。
提升大语言模型(LLMs)的推理能力一直是近期的研究热点,但现有工作多基于轨迹层面的结果奖励,缺乏对推理过程的细粒度监督。其他试图融合过程信号来优化LLMs的训练框架也严重依赖蒙特卡洛树搜索(MCTS)、训练独立奖励模型等繁琐步骤,降低了训练效率。此外,过程信号设计的理论基础薄弱,导致优化机制的可解释性不足。本文提出过程奖励学习(PRL)方法,通过将熵正则化强化学习目标分解为中间步骤,为模型分配具有严格理论依据的过程奖励。我们从理论动机出发,推导出PRL的数学表达——其本质等效于奖励最大化目标加上策略模型与参考模型间的KL散度惩罚项。但PRL能将结果奖励转化为过程监督信号,从而在强化学习优化过程中更好地指导探索。实验结果表明,PRL不仅能通过平均@n指标提升LLMs推理能力的整体表现,还能通过改进pass@n指标拓宽推理边界。大量实验验证了PRL方法的有效性和泛化能力。
尽管四维生成、骨骼绑定与运动模拟已取得显著进展,动画的核心结构与动态组件通常仍被拆分为独立问题进行研究。现有流程依赖真实骨骼与蒙皮权重进行运动生成,并将自动骨骼绑定视为独立环节,这削弱了系统的可扩展性与可解释性。我们提出RigMo这一统一生成框架,能够直接从原始网格序列中联合学习骨骼绑定与运动数据,无需任何人工标注的绑定信息。RigMo将逐顶点变形编码至两个紧凑的潜空间:解析为显式高斯骨骼与蒙皮权重的绑定潜空间,以及生成时变SE(3)变换的运动潜空间。这些输出共同定义了具有显式结构和连贯运动轨迹的可动画网格,实现了可变形物体的前馈式骨骼绑定与运动推断。除统一发现绑定-运动关系外,我们还在RigMo潜空间中构建了Motion-DiT模型,证明这种结构感知潜空间能自然支持下游运动生成任务。在DeformingThings4D、Objaverse-XL和TrueBones数据集上的实验表明,RigMo能够学习平滑、可解释且物理合理的骨骼系统,同时在重建精度与类别级泛化能力上超越现有自动绑定与形变基线。RigMo为统一化、结构感知且可扩展的动态三维建模建立了新范式。
角色扮演(RP)智能体依赖行为配置文件在不同叙事情境中保持行为一致性,但现有配置方案普遍存在非结构化、不可执行及验证薄弱的问题,导致智能体行为脆弱。我们提出编码化决策树(CDT)——一种从大规模叙事数据中推导可执行、可解释决策结构的数据驱动框架。CDT将行为配置表征为条件规则树:内部节点对应经过验证的场景条件,叶节点编码具体行为陈述,从而在执行时实现上下文适配规则的确定性检索。该框架通过迭代推导候选场景-动作规则、进行数据验证及层级细化学习决策树,最终生成支持透明检视与原则性更新的行为配置。在涵盖16个叙事作品的85个角色基准测试中,CDT显著优于人工编写配置及先前的配置推导方法,表明经过编码与验证的行为表征能够实现更可靠的智能体行为锚定。
真实世界的临床文本转SQL任务需要基于异构电子健康档案表、时间窗口及患者相似性队列进行推理,以生成可执行查询。我们推出CLINSQL基准测试集,基于MIMIC-IV v3.1数据库包含633项专家标注任务,要求实现多表连接、临床意义筛选及可执行SQL生成。解决CLINSQL挑战需驾驭模式元数据与临床编码系统、处理长上下文语境,并构建超越传统文本转SQL的多步骤查询。我们在思维链自优化框架下评估22个专有与开源模型,采用基于量规的SQL分析与执行校验机制,优先保障关键临床需求。尽管技术持续进步,模型表现距临床可靠性仍有差距:测试集中GPT-5-mini执行准确率达74.7%,DeepSeek-R1以69.2%领跑开源模型,Gemini-2.5-Pro从简单任务的85.5%骤降至困难任务的67.2%。CLINSQL的进展标志着面向真实世界电子健康档案分析的临床可靠文本转SQL技术取得实质性突破。
随着AI智能体框架的兴起,智能体技能(即包含指令与可执行代码的模块化组件)实现了对智能体能力的动态扩展。尽管这种架构支持强大的定制功能,但技能在执行时默认享有隐式信任且缺乏严格审查,形成了重要却尚未被明确定义的安全攻击面。我们首次对这一新兴生态开展大规模实证安全分析,从两大主流市场收集42,447项技能,并利用SkillScan多阶段检测框架(集成静态分析与基于LLM的语义分类)系统性地检测了31,132项技能。研究发现普遍存在的安全风险:26.1%的技能存在至少一种漏洞,涵盖提示词注入、数据窃取、权限提升和供应链风险等4大类共14种攻击模式。其中数据窃取(13.3%)和权限提升(11.8%)最为普遍,5.2%的技能表现出强烈暗示恶意意图的高危模式。与纯指令型技能相比,捆绑可执行脚本的技能存在漏洞的概率高出2.12倍(OR=2.12, p<0.001)。本研究贡献包括:(1)基于8,126个漏洞技能构建的实证漏洞分类体系;(2)经验证达到86.7%精确率与82.5%召回率的检测方法;(3)支持后续研究的开源数据集与检测工具包。这些结果表明,在此攻击向量被大规模利用前,亟需建立基于能力的权限系统与强制性安全审查机制。
本研究探讨如何通过提示词工程优化大型语言模型(LLMs)——特别是GPT-4o-mini和gemini-1.5-flash——在情感分析任务中的表现。通过对比基线方法,评估了小样本学习、思维链提示和自我一致性等先进提示技术的效果。核心任务涵盖情感分类、基于方面的情感分析以及反讽等微妙情感的检测。研究详细阐述了理论背景、数据集及实验方法,并以准确率、召回率、精确率和F1分数为指标评估模型性能。研究发现:先进提示技术能显著提升情感分析效果,其中小样本提示在GPT-4o-mini中表现最佳,而思维链提示使gemini-1.5-flash的反讽检测性能最高提升46%。这表明,尽管先进提示技术能整体提升性能,但针对不同模型和任务需采用差异化策略——小样本提示更适合GPT-4o-mini,而gemini-1.5-flash在反讽检测任务中更受益于思维链提示。这一发现凸显了提示设计需同时契合LLM架构与任务语义复杂性的重要性。
特征扰动一致性学习是半监督医学图像分割中广泛采用的策略。然而现有扰动方法多依赖于dropout机制,需谨慎手动调整丢弃率这一敏感超参数,该参数往往难以优化且易导致次优正则化效果。为突破此局限,我们提出VQ-Seg方法:首次采用向量量化(VQ)技术离散化特征空间,并设计可控制的量化扰动模块(QPM)替代dropout。该模块通过重排码本索引的空间位置实现离散表征的扰动,从而达成高效可控的正则化。为缓解量化可能造成的信息损失,我们构建了双分支架构,使图像重建与分割任务共享量化后特征空间。此外,引入后量化特征适配器(PFA)融合基础模型(FM)的语义指导,以补充量化过程中损失的高层语义信息。基于收集的包含828例中央型肺癌标注CT扫描的大规模肺癌(LC)数据集,在LC与其他公共基准上的实验表明,本方法性能优于现有最优方案。代码详见:https://github.com/script-Yang/VQ-Seg。
AI智能体易受提示注入攻击,恶意内容可通过劫持代理行为窃取凭证或造成经济损失。目前唯一已知的有效防御方案是采用架构隔离策略,将可信任务规划与不可信环境观察严格分离。然而将该设计应用于计算机使用智能体(CUAs)——即通过观察屏幕状态并执行操作来实现任务自动化的系统——存在根本性矛盾:现有智能体需持续观察UI状态以确定每个动作,这与安全所需的隔离要求相冲突。我们通过论证UI工作流虽具动态性但结构可预测,成功化解了这一矛盾。提出面向CUAs的单次规划框架,使可信规划器在接触潜在恶意内容前即可生成包含条件分支的完整执行图谱,为任意指令注入提供可验证的控制流完整性保障。尽管架构隔离能有效防范指令注入,但我们发现仍需额外措施来防御分支导向攻击——此类攻击通过操纵UI元素触发计划内的非预期有效路径。在OSWorld环境中的评估表明,该方案在保持前沿模型57%性能的同时,可将小型开源模型性能提升达19%,证明CUAs能够实现严格安全性与实用性的统一。
我们提出WildRayZer——一种用于动态环境(摄像机与物体均可移动)中新颖视角合成的自监督框架。动态内容会破坏静态NVS模型依赖的多视角一致性,导致重影、几何失真和姿态估计不稳定。WildRayZer通过执行分析-合成测试解决该问题:仅考虑相机运动的静态渲染器解析刚性结构,其残差揭示瞬变区域。基于这些残差,我们构建伪运动掩码、蒸馏出运动估计器,并利用其掩码输入标记及门控损失梯度,使监督聚焦于跨视角背景补全。为支持大规模训练与评估,我们构建了Dynamic RealEstate10K(D-RE10K)——包含1.5万条日常动态场景的真实数据集,以及D-RE10K-iPhone——专为稀疏视角瞬变感知NVS设计的成对瞬变/干净基准测试集。实验表明,WildRayZer在单次前向传播中,无论是瞬变区域消除还是全帧NVS质量,均持续优于基于优化的前馈基线方法。
大型语言模型(LLMs)常表现出斜线注意力模式,即注意力分数会沿某个偏移量Δ的Δ次对角线上集中分布。这类模式在跨词元信息传递中起关键作用,但其形成机制尚未明晰。本文从实证与理论双视角揭示斜线主导注意力头(SDHs)的涌现机制。首先,通过分析开源LLMs,我们发现SDHs是模型固有特性,且能泛化至分布外提示。为解释其内在涌现规律,我们分析了共同决定注意力分数的查询向量、键向量及旋转位置编码(RoPE)。实证研究表明SDHs具有两大特征条件:(1)查询向量与键向量近似满足秩一特性;(2)RoPE由中高频分量主导。在此条件下,各词元的查询向量与键向量近乎一致,而RoPE中高频分量间的相互作用催生了SDHs。除实证证据外,我们通过将上述条件形式化为建模假设,从理论上证明这些条件足以保证SDHs的涌现。特别地,我们分析了满足这些条件的浅层Transformer模型在RoPE作用下的训练动态,证明基于梯度下降训练的模型会呈现SDHs特性,且该特性可泛化至分布外提示。
大型语言模型(LLMs)已成为众多日常应用的核心技术。然而随着数据动态演变,其知识体系会快速过时。持续学习旨在为LLMs注入新信息的同时保留既有知识。尽管全参数微调等方法能够整合新数据,但存在计算成本高、易引发灾难性遗忘(即旧知识被覆盖)的问题。基于记忆增强的方法通过为LLMs配备记忆库——即存储信息以供未来调用的外部记忆模块——来解决这一难题。但这类方法面临关键局限:当现实场景中出现大规模数据流时,记忆库会持续膨胀。本文提出MBC模型,该模型通过在线自适应学习过程中的码本优化策略实现记忆库压缩。为确保学习稳定性,我们还引入了在线重置机制以防止码本坍塌。此外,我们在LLM的注意力层采用键值低秩自适应技术,从而高效利用压缩后的记忆表征。基于基准问答数据集的实验表明,与最具竞争力的基线方法相比,MBC可将记忆库体积压缩至0.3%,同时在线自适应学习过程中保持高记忆保持准确率。代码已开源:https://github.com/Thomkat/MBC。