每日精选AI研究论文及翻译
视觉-语言模型(VLMs)通常将视觉定位与检测形式化为坐标令牌生成问题,即将每个二维框序列化为多个一维令牌,这些令牌在很大程度上是独立学习与解码的。这种逐令牌解码方式与边界框几何结构的耦合性不匹配,并且由于严格顺序生成而造成了实际推理瓶颈。我们提出LocateAnything,一种基于并行框解码(PBD)的统一生成式定位与检测框架。通过将边界框和关键点等几何元素作为原子单元进行单步解码,LocateAnything保持了框内几何一致性,并实现了显著的并行性。我们证明PBD在解码吞吐量和定位精度上均有所提升。此外,我们开发了可扩展的数据引擎,并构建了包含超过1.38亿训练样本的大规模数据集LocateAnything-Data,大幅增加了高精度定位的数据多样性。大量评估表明,LocateAnything推动了速度-精度前沿,在显著提高解码吞吐量的同时,在多个基准测试中提升了高IoU定位质量。这些结果凸显了并行框解码与大规模训练数据在实现高效、精确的统一视觉定位与检测方面的互补优势。
生成式视频基础模型的快速发展正将这一领域推向专业级电影合成的高度。为达到如此严苛的质量要求,社区正转向强化学习(RL)与智能体工作流。然而,可靠评估已成为关键瓶颈。现有基准主要评测“是否正确”(基础指令遵循),而从根本上忽略了“是否优秀”(电影质感、演技与美学)。此外,当前自动化指标缺乏领域特定的严谨性,无法提供可信信号,导致人类审美感知与机器评分之间存在严重的可信度鸿沟。为弥合这一差距,我们提出了EvalVerse——一个全面的、面向流程的、经专家校准的评估框架。我们将视频生成评估不仅视为工程任务,更视为核心科学问题:对主观电影专业知识的系统数字化。首先,我们将领域知识组织为与专业电影制作流程(前期制作、制作与后期制作)对齐的评估分类体系。其次,我们将人类专家判断提炼为带有大规模人工标注的精选数据集。第三,我们通过专家校准的微调策略,将这些知识注入视觉语言模型(VLM),使其能够执行显式的思维链推理。与以往工作相比,EvalVerse不仅保持与基础“正确性”指标的兼容性,还显著扩展了“优秀性”标准,并将任务覆盖范围拓展至复杂的多镜头序列与视听整合。因此,通过提供细粒度的诊断信号,EvalVerse超越了静态排行榜,为奖励模型和评估智能体等未来工作奠定了基本基础设施。
尽管空间基础模型在标准数据集上展现了令人瞩目的性能,但一个关键问题仍然存在:它们是否真正具备全能型能力——能够在多样化下游任务、任意视角、不断变化的场景域、变化的输入密度以及特定硬件约束下实现稳健泛化?回答这一总体性问题需要全面评估,然而当前模型主要在其专门设计或训练过的特定领域进行评估。此类评估本质上受限于狭窄的范式覆盖范围、有限的场景域和任意帧采样,使得评估其真实泛化能力面临根本性困难。为填补这一空白,我们提出SpatialBench——一个面向空间基础模型的跨范式、多领域基准测试,采用确定性采样机制。SpatialBench具备前所未有的规模和严谨的确定性设计,涵盖5个不同空间领域的19个数据集和546个场景。它系统评估了6种范式下的41个模型在5个任务套件及4种不同输入密度设置下的表现。我们的广泛评估表明,当前模型尚未成为全能型选手,并揭示了未来发展的关键洞察:具体而言,全上下文注意力机制最大化精度,而有限内存策略解锁长序列可扩展性。此外,针对挑战性具身与自我中心任务的实证评估显示,严格的领域对齐和高质量数据对性能的影响远大于简单的数据集规模扩展。为填补分析中发现的最大数据缺口,我们超越评估范畴,引入大规模数据集DA-Next-5M和强基线模型DA-Next,进一步拓展空间表征学习的边界。
我们提出MobileGym——一个基于浏览器的轻量级、完全可控的日常移动端交互环境,旨在保证交互保真度的同时无需复制专有后端。该环境实现了此前日常应用无法企及的两项能力:一是通过基于结构化JSON的确定性状态判断,提供可验证的结果信号;二是借助低成本并行展开,实现可扩展的在线强化学习。完整的系统状态以结构化JSON形式进行捕获、配置、分支与比较,单台服务器可托管数百个并行实例,每个实例占用约400 MB内存,冷启动时间约3秒。通过分层状态模型与声明式任务定义框架,状态可编程性与任务创建得以在大规模场景下保持实用性;单一的程序化判断机制既能输出确定性评估结论,也能生成密集的强化学习奖励信号。配套的MobileGym-Bench提供了416个参数化任务模板(涵盖28个应用,包括256个测试模板与160个训练模板),并配备确定性判断器与结构化AnswerSheet协议,有效规避自由文本匹配失败问题。在从仿真到真实设备的案例研究中,基于Qwen3-VL-4B-Instruct的GRPO模型在256任务测试集上获得12.8个百分点的性能提升;在59个真实设备信号子集中,真实设备执行保留了模拟端训练增益的95.1%。项目主页:https://mobilegym.github.io。
多视角3D重建随着前馈式3D重建模型的出现取得了显著进展。然而,这些模型通常在无退化的理想成像条件下训练与评估,而真实观测往往包含与此类设定差异显著的退化现象。因此,提升多视角3D重建在退化条件下的鲁棒性仍是一项重要挑战。我们提出几何感知表示去噪(GARD)框架,该框架创新性地在前馈式3D重建模型的特征空间中直接执行基于扩散的多视角恢复。这种设计利用3D重建器的几何感知特征表示,有效恢复了准确的场景几何信息。此外,通过引入额外的RGB图像解码器,精炼后的表示还可用于恢复高质量RGB图像,从而实现3D场景几何与高质量影像的同步重建。在Depth Anything 3 (DA3)基准上的综合实验验证了所提GARD框架的有效性。
视听生成正从短片段快速向分钟级内容演进,而现有评估体系仍主要局限于短视频设定。现有基准测试主要聚焦于5至10秒的文本条件生成,且极少支持跨文本、图像和视频条件模态的统一评估。此外,这些基准对身份一致性、叙事连贯性及视听同步性随时间跨度退化的机制仅能提供有限洞察。为填补这一空白,我们提出LongAV-Compass——一个面向分钟级视听生成的系统性基准测试集。LongAV-Compass包含284个精心策划的测试案例,覆盖文本到音视频(T2AV)、图像到音视频(I2AV)及视频到音视频(V2AV)三类任务,并按应用场景与生成复杂度进行组织。该基准融合了基于分类学的基准构建方法,以及集成多模态大模型辅助评估与互补性感知及多模态指标(包括DINO-v2、ArcFace、CLIP和ImageBind)的统一评估框架。该框架评估超过20个细粒度维度,涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐及视听同步性。通过对11个代表性模型进行实验并开展人工对齐验证,LongAV-Compass提供了一个诊断性测试平台,用于分析当前系统在不同输入模态下维持连贯、语义对齐且时间一致的分钟级视听生成能力时的局限性。
尽管扩散大语言模型(D-LLMs)已作为自回归大语言模型(AR-LLMs)的替代方案出现,但针对D-LLMs的安全监测仍鲜有探索。与AR-LLMs不同,D-LLMs通过多步去噪过程生成文本,会暴露中间隐藏表示,这些表示可能包含标准单步监测设置中无法获取的安全相关信息。受轻量级探针适用于持续监控的启发,我们分析了哪些轨迹级信号最能指示此类探针可能失效的情况。我们发现最具信息量的信号是安全犹豫:中间隐藏状态反复落在探针决策边界的小范围内。D-LLM轨迹中此类犹豫步数能有效预测探针失败,从而为样本难度提供代理指标。基于这一分析,我们提出D²-Monitor,一种用于D-LLMs的双层安全监测器。D²-Monitor采用轻量级探针作为常开监测器,以联合估计犹豫程度并执行基础分类。当犹豫水平超过阈值时,会激活更具表现力但计算量更大的探针。这种动态路由机制在测试时高效分配监测资源。在4种D-LLMs上的3个数据集(WildguardMix、ToxicChat、OpenAI-Moderation)上进行评估,D²-Monitor以紧凑的参数规模(≤0.85M参数)实现了最先进性能,并且相对于8个基线方法展现出最佳的效果-效率权衡。
我们推出MiniMax-M2系列,这是一组基于“小激活释放大智能”原则构建的混合专家语言模型。其旗舰模型M2总参数量达2299亿,而每个token仅激活98亿参数。M2系列专为智能体部署进行端到端设计,包含三个核心组件:(i) 智能体驱动的数据流水线,能够生成大规模、可验证的智能体编码与智能体协作轨迹,每条轨迹均基于可执行工作空间及与工件对齐的奖励机制;(ii) Forge,一个可扩展的智能体原生强化学习系统,适应长周期智能体轨迹,并配备窗口式FIFO调度、前缀树合并、推理优化,以及支持白盒与黑盒智能体的训练-推理-智能体清晰解耦架构;(iii) 最新的M2.7检查点迈出了自我进化的初步一步——自主调试训练运行并修改自身支架。从M2到M2.7,这一组合将小型激活足迹转化为智能体编码、深度搜索、办公任务及推理基准上的前沿性能。
我们研究系列级别的电影重制问题,这是一个长时域的视频到视频生成任务,通过风格化或演员替换实现对整集或整部影片的定位,同时严格保留数百个镜头中的叙事结构、动作编排和角色身份。现有视频生成与编辑流程在此场景下常因复合身份漂移、背景突变以及大范围镜头运动与视角变换引发的语义侵蚀而失效。为此,我们提出Soap2Soap——一个多智能体框架,通过双桥接一致性机制强化长期语言-视觉一致性:以场景感知的JSON剧本作为持久语义骨架,并在场景与镜头层级动态分配视觉参考锚点。为在视频合成前抑制漂移,我们引入批量关键帧一致性,通过基于网格的公式在共享潜在上下文中联合生成多个关键帧。闭环验证智能体进一步对身份、稳定性和对齐性进行审计,触发选择性重新生成。在SoapBench上的实验表明,该方法在长期一致性与叙事保真度上较商业视频生成API有显著提升。
测试时扩展(TTS)通过分配额外的推理计算来探索解空间,从而增强大型语言模型的推理能力。然而,现有的并行TTS方法通常在搜索过程中保持分支孤立:中间发现结果仍为分支私有,无法及时指导其他分支。这种信息隔离导致大量冗余探索,因为各分支重复发现已在别处获得的信息,并且需要更多搜索步骤来收集做出正确回答所需的完整决策信息。为解决这一问题,我们提出协作并行思考(CPT),这是一种无需训练的推理框架,能够在并行分支间实现搜索时的信息共享。CPT从正在运行的分支中提取紧凑的中间信息,维护一个去重的查询级信息池,并通过输入上下文广播池中条目,使得后续搜索步骤中的每个分支能够复用其他分支的发现,而非重新发现相同信息。在HMMT和AIME基准测试上的实验表明,CPT在多种采样预算和模型规模下,相比强基线建立了更强的准确率-延迟帕累托前沿,凸显了搜索时协作作为高效并行TTS的有效方向。
我们推出LLaVA-OneVision-2 (LLaVA-OV-2),这是迄今LLaVA-OneVision系列中能力最强的视觉-语言模型,在广泛的多模态基准测试中实现了卓越性能。该模型基于原生OneVision编码器,并引入窗口注意力机制,在保持原生分辨率的同时实现高效的局部计算。其关键进展是编解码流令牌化:它将压缩视频视为连续的比特开销流,其中比特开销动态决定自适应时间分组,运动残差线索则选择显著空间证据,将其压缩至紧凑的视觉画布中。这种分配将有限的令牌预算集中在承载事件的内容上,与固定画面组相比,实现了更稳定的长视频令牌压缩。共享的3D旋转位置编码进一步将编解码画布、采样帧和图像置于统一的时空坐标系中。此外,我们围绕大规模开放监督构建了LLaVA-OV-2的数据和训练栈:约800万重标注视频样本用于预训练,400万样本的空间语料用于微调。我们还引入JumpScore,这是一个时间定位基准,针对高频密集重复运动中的细粒度定位,而这一场景在现有视频评估中代表性不足。LLaVA-OV-2的突出能力是其统一感知,涵盖视频理解、时间定位、空间定位和操作轨迹推理。在JumpScore上,LLaVA-OneVision-2-8B达到74.9 JumpScore mAP,超越Qwen3-VL-8B (30.1)达44.8个百分点;在同一基准测试匹配的视觉令牌预算下,编解码流输入相比帧采样,时间定位提升9.7个百分点。跨标准基准测试,LLaVA-OneVision-2-8B在视频任务上平均超越Qwen3-VL-8B 4.3个百分点,空间任务5.3个百分点,追踪任务平均J&F 15.6个百分点。
现代大型语言模型(LLMs)中的归一化层由确定性归一化操作和可学习的尺度向量组成。尽管归一化操作已被广泛研究,但尺度向量虽被普遍使用,其作用机制仍鲜为人知。本研究从可表达性、优化过程和架构结构三个角度,对LLMs中的尺度向量展开了系统性分析。首先,我们通过实验证明,虽然尺度向量仅占模型参数的极小比例,但移除它们会显著损害LLM的预训练效果。理论分析进一步表明,在Pre-Norm架构中,尺度向量并未提升可表达性;相反,它们通过对后续线性映射产生自增强型预处理效应来改善优化过程。其次,我们探究了权重衰减对尺度向量的作用。通过区分Input-Norm层与Output-Norm层,理论上证明了由于这两类层在优化和可表达性中扮演不同角色,权重衰减对前者有益但对后者有害。基于这一认知,我们提出了三种轻量级且互补的尺度向量改进方案:分支特异性异质性、围绕线性映射的优化放置方式,以及幅度-方向重参数化。理论与实验均证实每种改进均能带来一致性收益。最终,我们将这些改进整合为统一的尺度向量策略,并在0.12B至2B参数规模的密集模型与混合专家模型上,通过工业级token预算下的多优化器、多学习率调度方案进行了大规模LLM预训练实验评估。该统一策略不仅始终获得优于精心调优基线的最终损失值,且展现出更优的扩展行为,同时仅增加可忽略的参数与计算开销。
视觉-语言-动作(VLA)模型广泛采用预训练的视觉-语言模型(VLM)作为策略主干,但尚不清楚何种预训练VLM表示对VLA初始化有效。本文从三个维度将VLA初始化作为受控表示设计问题进行研究:能力级别的具身化VQA监督、参数更新策略以及机器人数据预训练。实验表明,原始预训练VLM表示是动作性能的关键来源。然而,具身化VQA适配并未带来一致性的性能提升:其收益取决于下游瓶颈,且不同能力领域的增益并非简单叠加。在更新策略方面,LoRA相比全量微调能提供更可靠的初始化效果,这表明过度重塑预训练表示会削弱VLA初始化能力。机器人数据预训练可进一步改善VLA初始化,其中基于LoRA的分阶段训练策略产生的变体效果最佳。综合这些发现可知,有效的VLM-to-VLA适配应在注入与动作相关的具身和机器人轨迹信号的同时,保留对动作学习仍然有用的预训练VLM表示。
流匹配与干净数据预测表明,相比于预测环境噪声量,回归干净点能更有效利用低维结构。我们探究这一原理在图像映射到学习得到的潜空间后是否仍然有效——该空间中的压缩已消除原始像素的大部分变异性。我们提出JLT,这是一个基于冻结FLUX.2 VAE编码的130M潜扩散Transformer,并在相同表征、主干网络和训练设置下,将干净潜变量预测与匹配的速度预测DiT进行对比。尽管对于固定加噪时间而言,x、ε和v这三个变量可线性互转,但局部高斯分析表明,速度回归继承了各向同性的目标协方差下限,并放大了低方差潜方向,而干净预测则抑制了这些方向。在ImageNet 256×256上,JLT-B/1在无分类器引导下获得FID-50K 2.50,且与速度预测相比存在较大的匹配目标差距。这些结果表明,潜扩散中的预测目标是依赖于表征的几何选择,而非可互换的代数参数化方案。
智能体强化学习(agentic RL)已被证明在训练具备外部工具使用能力的大语言模型(LLM)智能体方面卓有成效。然而,我们发现智能体强化学习训练会导致冗余工具调用增加,并模糊模型的内在知识边界——即模型无法区分何时需要调用工具、何时仅凭参数化知识即可作答。现有基于奖励塑形的方法提供了粗粒度的优化目标,往往倾向于不加区分地抑制工具调用,从而引发奖励作弊。本文提出AKBE(智能体知识边界增强),这是一种在训练期间通过双路径(含工具路径与无工具路径)回滚动态探测模型内在知识边界的在策略方法。我们将知识边界定义为:针对每个实例,判断是否需要工具以及所需的最小工具调用次数。通过比较不同路径的正确性,AKBE对轨迹进行分类,并构建目标明确的监督信号,引导每个问题形成高效的工具使用模式。这些信号无缝集成到智能体强化学习训练循环中。在七个问答基准上的实验表明,与标准智能体强化学习相比,AKBE平均任务准确率提升+1.85,工具调用次数减少18%,工具生产力提高25%,且未对准确率与效率造成权衡折衷。进一步分析表明,该方法在不同强化学习算法上具有即插即用的兼容性,并揭示了各信号类别的作用机制。我们的代码已开源至https://github.com/CuSO4-Chen/AKBE。
大语言模型(LLM)代理依赖可复用技能来解决复杂任务。然而,现有技能创建方法将技能视为孤立、静态的产物,限制了其复用性、可靠性和长期改进能力。我们提出MUSE-Autoskill Agent(记忆驱动技能演化代理),这是一种以技能为核心的代理框架,允许代理通过统一的技能生命周期(创建、记忆、管理、评估与改进)持续提升任务解决能力。该框架使代理能够按需创建技能、跨任务存储与复用技能、高效组织与选择技能,并通过单元测试和运行时反馈对技能进行评估以实现持续改进。我们进一步引入技能级记忆机制,为每个技能积累跨任务经验,从而支持更有效的长期复用与适应。在SkillsBench上的实验初步表明,生命周期管理的技能能够提升任务成功率、效率、复用性及跨代理迁移能力,凸显了将技能作为长期存在、经验感知且可测试资产的重要性。
社交推理游戏已成为探究大语言模型(LLM)智能体推理、欺骗、协作与信念建模的流行测试平台。然而,大多数环境仅通过胜率等游戏结果进行评分,且多为纯文本交互,难以判断智能体的语言是否真正基于其感知与行为,也难以识别其行为背后的失败模式。为弥补这一空白,我们提出QUACK——一个用于审计多模态社交推理中智能体语言具身性的开源环境与评估框架。QUACK在三个层次评估智能体:游戏结果、行为轨迹以及话语层面的一致性。其核心的陈述验证流水线从引擎日志中重建每个智能体的真实轨迹,并针对每条讨论陈述进行核对,自动标记空间幻觉、无依据指控、欺骗崩溃及语言行为不一致。在评估三种前沿视觉语言模型(VLM)的同质与跨模型对抗设置时,我们发现即使是最强的智能体,其可验证空间陈述中也有15.1%存在幻觉,且超过一半的指控缺乏具身证据。我们在https://github.com/AAAAA-Academia-Attractions/QUACK 发布了完整的引擎、评估框架、工具包及日志。
通过具有可验证奖励的强化学习(RLVR)进行视觉推理已取得显著进展。然而,在处理多源输入时,现有方法往往将其视为信息的简单叠加,缺乏明确机制来区分整合额外源是否带来信息增益或引入干扰。因此,它们在融合多源信息时难以有效建模动态交互,尤其当不同源在物理属性和语义上存在显著差异时(例如红外与深度信息),若某一源包含主导信号,其性能甚至可能低于单源推理。为解决该问题,我们提出MARS——一种新颖的单锚定多源推理框架,将每种视觉模态建模为独立信息源。具体而言,通过将单源奖励视为动态锚点,我们的方法将多源融合引入的信息增益显式纳入优势归一化过程,并在RLVR中自适应地增强源间相互促进的作用,同时抑制潜在噪声或冲突。理论分析表明,该方法能有效量化梯度估计中多源整合引入的信息增益,实现模态的一致性调节。大量数据集上的实验结果也显示,该方法在GRPO和DAPO上分别实现了3.2%和4.9%的性能提升,验证了其有效性。
大型语言模型(LLMs)已发展为在现实任务中与用户协作的交互式智能体。在此类环境下,有效协作日益依赖于超越用户明确表述的内容来理解其意图——因为用户意图往往体现在碎片化的日常互动中,需要同时具备个性化建模与主动交互能力。然而,现有智能体基准测试主要评估推理与工具运用能力,很大程度上忽视了在真实场景中推断并利用用户偏好的挑战。为弥补这一空白,我们提出VitaBench 2.0——一个用于评估长期用户交互中个性化与主动代理行为的基准测试。在VitaBench 2.0中,任务被组织为针对单个用户的时间有序序列,其偏好嵌入在碎片化且异构的交互过程中。任务的成功完成要求智能体持续从这些交互中提取、利用并更新用户偏好。我们进一步通过需要智能体识别缺失信息并在决策前主动从用户或环境中获取信息的任务来评估其主动性。为支持系统分析,我们提供了可扩展的记忆接口,能够对不同记忆架构进行受控比较。我们对一系列前沿商业与开源LLM进行了基准测试。结果显示,即便是最先进的模型,实现现实世界中的个性化仍极具挑战性,当前能力与实际需求之间存在显著差距。深入分析进一步揭示了当前智能体在真实个性化决策中的失败模式与能力瓶颈,为未来模型改进提供了洞察。
激活神谕旨在让其他模型的激活模式对人类更易理解,相较于白盒可解释性技术展现出更优的结果。然而,针对此类激活神谕自然语言输出的不确定性量化(UQ)目前研究尚不充分。本文研究了6种不同的激活神谕置信度估计方法,并评估了其置信度分数的校准程度。通过在每个神谕上使用6,000个样本(变化口头表达与上下文提示)进行的实验表明:自举模式频率是测试中校准效果最佳的方法(在Qwen3-8B上,预期校准误差为5.7%,而答案词对数概率的误差为25.5%;在Qwen3.6-27B上,误差为10.3%,而后者为13.1%),且对数概率基线能以极低的成本作为快速分诊信号。 代码及修补后的训练器见https://github.com/federicotorrielli/probabilistic_activation_oracles。
大语言模型(LLMs)正被越来越多地部署为能够推理、使用工具并执行多步操作的自主智能体。然而,大多数幻觉基准测试仍仅评估最终输出,忽略了源自中间“思考-行动-观察”步骤的失败。我们提出Trajel——一个用于审计多智能体工业工作流中轨迹级幻觉的数据集与评估框架。Trajel基于来自AssetOpsBench的专家标注智能体轨迹,引入了五类幻觉分类法(事实性、指代性、逻辑性、程序性和范围性)。我们在子任务、轨迹和长上下文三个层面基准测试了有监督检测模型。结果表明,最常见的失败模式被现有基准测试遗漏,近一半的幻觉轨迹同时涉及多种类型,且具有高二元准确率的自动检测器仍无法正确分类最微妙的类型。轨迹感知检测显著优于标准的后验验证,这使得基于分类法的评估成为更安全智能体部署的必要条件。
多智能体大语言模型(LLM)系统通过整合多个智能体的输出提升推理能力,但交互密集型方法可能引发误差传播和高通信开销。当智能体交换原始响应或推理轨迹时,错误的中期推理可能被采纳并放大,导致形成看似合理却错误的共识;多轮通信还会增加令牌消耗、延迟和推理成本。本文提出一种受控通信的协调框架DarkForest。该框架首先保持智能体独立性,使每个智能体在不查看其他智能体输出的情况下生成答案;接着将原始响应解析为结构化候选记录,将语义等价的候选记录聚类,并利用智能体可靠性、置信度、解析质量、支撑模式可靠性和独立性校正来估算这些聚类上的校准信念分布。协调器仅从该信念状态接收策略允许的证据,实现受控通信。在六个推理基准上的实验表明,DarkForest取得了领先的整体质量,在基准指标上较最强基线最高提升30.7%,相比高通信开销基线将令牌消耗降低高达6.5倍。
混合专家(MoE)已成为千亿参数语言模型的事实标准架构,但其在亚十亿参数规模下用于设备端部署的优势仍鲜有探索。为填补这一空白,我们提出MobileMoE——一个面向设备端的MoE语言模型系列,其活跃参数规模低于十亿(0.3-0.9B活跃参数,总参数1.3-5.3B),为设备端大语言模型建立了新的帕累托前沿。我们首先制定了一个设备端MoE缩放定律,该定律在移动内存和计算约束下联合优化MoE架构,识别出设备端的最佳平衡点——具有细粒度与共享专家的适度稀疏性——可在内存和计算上同时达到最优。基于推导出的架构,我们采用包含预训练、中期训练、指令微调和量化感知训练的四阶段流程来训练MobileMoE,所有阶段均使用开源数据集。在14个基准测试中,MobileMoE以2-4倍更少的推理FLOPs匹配或超越领先的设备端稠密大语言模型,并以高达60%的参数减少匹配或超越当前最先进的MoE模型OLMoE-1B-7B。为打通移动部署的最后一公里,我们首次在商用智能手机上实现了高效的MoE推理,并进行了全面的设备端性能评测。在相当的INT4权重量化内存下,MobileMoE-S的预填充速度比稠密基线模型MobileLLM-Pro快1.8-3.8倍,解码速度快2.2-3.4倍。
主体驱动图像生成旨在根据文本指令合成保留给定主体身份的新图像。现有方法通常将文本与参考图像分开编码,这限制了跨模态推理能力,并导致复制粘贴伪影。近期连接多模态模型与扩散模型的框架虽提升了指令遵循能力,但很大程度上忽视了身份保持。为解决这些局限,我们以联合编码文本与参考图像的多模态大语言模型(MLLM)为条件构建扩散模型,并引入基于VAE的身份条件控制进行增强。设计了新型双层聚合(DLA)模块,用于聚合多层级MLLM特征以实现最优条件控制;同时采用多阶段去噪策略,在推理过程中逐步平衡来自MLLM的语义信息与VAE提供的细粒度身份信息。大量实验表明,本方法在主体驱动图像生成任务中实现了多模态理解与身份保持的协调统一,有效缓解了复制粘贴问题,并在人类偏好评估中展现出更优性能。项目网站见 https://zsh2000.github.io/squeeze-mllm-subject-gen/。
我们隆重推出 Gemini Embedding 2,一款原生多模态嵌入模型,支持将视频、音频、图像和文本等多种模态嵌入到统一的表示空间中。我们借助 Gemini 的多模态能力,为所有这些模态的任意交错输入组合生成嵌入,从而在各类任务中实现出色的泛化性能。通过在多任务、多阶段的训练框架中应用大规模对比学习,我们在关键嵌入基准测试中取得了领先水平,涵盖单模态、跨模态及多模态检索等多样化的任务。实验结果表明,我们的嵌入模型在各类任务上表现优异(在 MSCOCO 上 R@1 达 62.9,Vatex 上 NDCG@10 达 68.8,MTEB 多语言任务上达 69.9,MTEB 代码任务上达 84.0),超越了专门设计的模型。这些统一能力使 Gemini Embedding 2 成为检索增强生成(RAG)、推荐和搜索等下游应用的有力候选方案。此外,其在从天文学、生物科学到美术及烹饪艺术等不同领域的强大零样本性能,使其即使是针对专业领域,也能作为一种高度可靠、开箱即用的表示形式。
近期大语言模型(LLMs)的进展推动了其作为具备推理、规划及工具使用能力的交互式智能体的广泛应用。尽管现有基准测试表现优异,但在实际部署中(环境天然具有随机性与不完美性),这类智能体常表现出显著性能衰减。我们认为,这种差异源于理想化训练设置与现实交互动态之间的根本性错位——当前范式依赖于精心设计的任务指令和稳定可控的环境。为解决该问题,我们提出NoisyAgent智能体训练框架,将环境不完美性显式融入智能体学习过程。我们识别出真实场景中的两类主要交互噪声源:用户噪声(反映用户交互的模糊性与变异性)与工具噪声(反映工具执行过程中的故障与异常)。通过在训练环境中修改用户交互模式并模拟工具执行结果,我们将此类扰动引入训练流程。为在稳定训练的同时鼓励智能体应对逐步升级的不完美性,噪声仅作用于部分轨迹样本,并随模型适应当前噪声水平而渐进式提升难度。大量实验表明,该方法在噪声动态环境下持续提升智能体鲁棒性。分析揭示,噪声条件下的训练还能提升理想化基准测试的性能表现,这表明受控的噪声暴露能促进更通用的推理与决策行为。我们的研究强调了建模交互不完美性对弥合智能体训练与现实部署之间差距的重要意义。
基于大语言模型的GPU内核生成代理正在快速发展,但其进步从根本上受限于所优化的基准测试。现有基准测试与生产级推理框架存在严重脱节:它们在单GPU上使用合成输入评估内核,忽视底层编译栈,且奖励机制倾向于复现已知优化而非发现新方案。由此产生的奖励信号具有误导性——代理学会生成在沙盒环境中得分高、但集成实际系统时会出现接口不兼容、编译栈冲突以及无提示的正确性退化等问题。为此,我们提出FastKernels——一个基于最小化46个代表性架构(覆盖8个类别)的内核基准测试,其内核集合覆盖HuggingFace Transformers架构总数的96.2%(409/425)。FastKernels同时充当轻量级生产级推理框架,在主流大语言模型推理服务中与vLLM、SGLang等成熟系统性能持平,在服务不足的架构上则显著超越上游参考实现;每个任务的接口均对标其架构系列最新库的对应模块,支持优化的内核直接部署至生产代码库。在FastKernels上评估最先进的内核代理后,我们发现即使最强大的代理相较于生产基线仅实现0.94倍总加速比,较弱代理则分别为0.78倍和0.53倍——这证实了基准测试与生产环境的错位是该领域的关键瓶颈。我们开源FastKernels,期望其成为将基准测试性能增益直接转化为生产吞吐量提升的垫脚石。代码已发布于https://github.com/Snowflake-AI-Research/fastkernels
大型语言模型由于在大量网络语料上进行训练,不可避免地会保留敏感信息,即可能引发有害生成的输入,从而引发隐私与安全担忧。现有的机器遗忘方法主要依赖于重训练或激进微调,这些方法要么计算成本高昂,要么容易损害相关知识及模型的整体效用。在本研究中,我们将机器遗忘重新定义为通过模型编辑实现的精确知识重映射问题。我们提出ZeroUnlearn,一个少样本遗忘框架。它通过将敏感输入映射至中性目标状态并移除其原始表示,从而覆写敏感输入。ZeroUnlearn通过带闭式解的乘法参数更新来强制表示正交性,从而实现对敏感信息的高效且有针对性的遗忘。我们进一步将ZeroUnlearn扩展至基于梯度的变体,以支持多样本遗忘。实验表明,我们的方法在保持模型通用效用的同时,优于现有基线方法。我们的代码可在以下GitHub链接获取:https://github.com/XMUDeepLIT/ZeroUnlearn。
长程智能推理要求大语言模型在包含思考、工具调用、观察结果与部分结论的长交互历史中执行操作。其挑战不仅在于交互历史篇幅增长,更在于当前决策所需的信息可能分散在相隔较远的步骤中,且直至后续阶段才产生关联。现有方法通常通过截断交互历史、将其压缩为简短替代表示,或检索部分历史片段进行复用,但未能显式建模对历史访问方式应如何随智能体状态演变而自适应调整。为此,我们将长程推理重构为状态自适应记忆问题。我们提出状态自适应记忆(State-Adaptive Memory,简称SAM)——一个独立框架,能够在持续交互过程中将信息整合为紧凑记忆线索,同时保留原始轨迹页面以供意图驱动的回溯。这些线索并非替代完整历史,而是作为轻量级句柄,使智能体无需重新训练基础模型,即可根据当前需求重构时间上遥远的信息。通过专家引导的监督学习与强化学习,我们进一步优化记忆模块,使其与轨迹层级效用对齐。在BrowseComp、BrowseComp-ZH、WideSearch与HLE基准测试中,SAM在多种智能体骨干模型上始终优于强基线方法。研究结果表明,显式记忆建模为长程智能推理提供了简洁而有效的基础。
分层图像生成与编辑是一项基础能力,能够实现生成视觉内容的逐层复用、编辑与组合,类似于自然语言中的单词级编辑。尽管其重要性显著,但在大规模场景下该领域仍处于探索不足的状态。为填补这一空白,我们提出MRT——一个200亿参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计,基于超过1000万个涵盖多种宽高比和文本提示的多语言设计样本进行训练。为充分利用这一规模优势,我们做出两项关键技术贡献。首先,我们将文本到层、图像到层、层到层三类互补任务统一到一个共享的掩码区域扩散框架中,通过选择性标记掩码实现灵活的逐层生成与编辑。其次,为实现越界层生成,我们引入了一种溢出感知画布层,可处理边界不一致性并支持半透明背景合成,从而生成超出可见画布边界的完整可编辑层。此外,我们应用扩散蒸馏技术实现8步实时多层生成,且质量损失极小。大量实验表明,我们的框架在所有三项任务上均显著优于先前最先进的方法(包括多种商业系统),为多层透明图像生成建立了新基准。值得注意的是,根据用户研究结果,我们的模型在图像到层的质量上显著优于同期Qwen-Image-Layered模型,同时在图像到层推理中实现10-100倍的推理加速,并将激活显存消耗降低50-90%。
扩散变换器(DiT)在图像生成方面表现出色,但推理成本高昂。尽管先前的研究通过量化和蒸馏降低了这一成本,但半结构化稀疏性(可将近减少一半的FLOPs)仍未得到充分探索。一个关键原因是,现有大多数方法聚焦于权重稀疏化,而剪枝50%的权重会移除关键的模型容量,从而降低生成质量。然而,我们的研究表明,DiT激活值本质上是稀疏的,并且对N:M半结构化稀疏化的鲁棒性远超权重。受此观察启发,我们倡导从权重稀疏化向激活值稀疏化的范式转变。我们提出RT-Lynx,该方法将N:M稀疏化应用于激活值,并结合误差补偿技术以减轻精度损失。我们还实现了针对这一场景高度优化的CUDA内核,在线性层中平均加速比高达1.55倍。在多个扩散模型上的大量实验表明,我们的方法在保持原始模型生成质量的同时,显著加速推理过程。
随着智能体系统能力的不断增强,它们能够制定策略、采取行动并与不同环境交互。这种自主性给监督和评估智能体行为带来了严峻挑战。当前大多数工具存在局限性:要么仅提供基础评估能力的可观测性功能,要么采用静态的人工构建错误分类体系,难以适应新领域。为弥补这一空白,我们提出Agentic CLEAR——一个自动、动态且易于使用的评估框架。该框架从系统级、轨迹级和节点级三个粒度层级生成智能体行为的文本洞察报告。Agentic CLEAR运行在可观测性层之上,支持无缝集成,并通过直观的用户界面大幅降低智能体评估门槛。在包含四个基准测试、七种智能体场景及数万次大语言模型调用的实验中,我们证明Agentic CLEAR能够生成高质量、数据驱动且富有洞察力的反馈。分析表明,其评估结果与人工标注的错误高度一致,并能有效预测任务成功率。
大型语言模型(LLMs)通常在打乱语料上进行训练,导致模型的知识在训练时固化,其时间锚定性仍未被充分理解。本研究聚焦于数据排序,探讨预训练动态对时间敏感事实知识获取的影响。主要贡献有两个方面:首先,我们引入了一个包含超过7000个时间锚定问题的综合基准,以及一套评估协议,能够分析模型是否正确地将事实与对应的时间段关联起来。其次,我们在按时间顺序排列的Common Crawl快照上预训练了60亿参数模型,并将其与标准打乱预训练模型进行对比。结果表明,按时间顺序训练的模型在通用语言理解和常识知识方面与打乱基线模型相当,同时始终展现出更及时、更精确的时间相关知识。按时间顺序预训练能提升事实的新鲜度,而打乱预训练则倾向于在较旧数据上表现更佳,这可能归因于事实重复率的增加。这些发现,连同我们在https://github.com/kyutai-labs/kairos 上发布的代码、以及在https://huggingface.co/collections/kyutai/kairos 上发布的检查点和数据集,为LLMs持续学习的未来研究奠定了基础。
大型语言模型能否检测并报告其自身的内部状态?已有诸多研究断言答案为肯定。我们基于人类元认知研究的经验指出,这一结论可能为时过早:要确信该结论,需区分真正的内省与基于表层线索的模式匹配。此外,我们认为仅凭行为证据本身不足以支撑强内省主张。 基于此考量,我们重新审视了近期引入的两种评估范式。在第一种范式中,模型需检测其内部状态是否被篡改。我们发现,模型无法可靠地区分此类针对内部状态的干预与对输入的操纵,这表明其在原始研究中的成功更可能反映其检测异常的一般能力,而非特别针对内部状态的干预。在考察的第二种范式中,模型需预测由其自身隐藏状态衍生的标签。我们发现,仅能访问输入的分类器即可达到与模型自身上下文预测相当的性能,说明原始结果并未确凿证明模型对其内部表征拥有特权访问。我们进一步引入重标签控制设置,使模型无法依赖任务语义进行求解,而必须依靠内部表征;在此改良控制版本的任务中,模型表现近乎随机。综合来看,这些结果表明现有证据尚不足以证明LLM具备元认知监控能力。
我们介绍NSF-SciFy,这是一个包含从美国国家科学基金会(NSF)项目摘要中提取的科学声明和研究提案的综合数据集。以往的科学声明验证数据集在规模和范围上有限,而NSF-SciFy取得了显著进展,包含从40万篇摘要中提取的280万条声明,涵盖所有科学和数学学科。我们提供了两个重点子集:NSF-SciFy-MatSci,包含来自材料科学项目的11.4万条声明;以及NSF-SciFy-20K,包含来自五个NSF理事会的13.5万条声明。我们采用零样本提示方法,开发了一种可扩展的科学声明与研究提案联合提取方法。我们通过三个下游任务展示了该数据集的实用性:非技术性摘要生成、声明提取和研究提案提取。基于我们数据集微调的语言模型取得了显著改进,相对提升通常超过100%,尤其在声明和提案提取任务上。我们的错误分析表明,提取的声明具有高精确率但召回率较低,这为方法的进一步改进提供了机会。NSF-SciFy为大规模声明验证、科学发现追踪和元科学分析等新研究方向奠定了基础。代码和数据可在https://github.com/darpa-scify/NSFSciFy获取。
先前研究表明,通过奖励分数设定大型语言模型自生成回复之间的受控对比性,能够改善英语下游偏好调优。我们将该方法扩展至多语言场景,并在涵盖高资源与低资源的14种语言的多样化任务上评估了两个模型。核心发现是:基于自生成回复的跨语言对比偏好调优(CroCo)无需特定语言的偏好标注即可实现迁移。基于英语偏好(构建于多语言基础模型之上)训练的奖励模型,能在大多数语言中生成有效的语言内排名,且无论是在单语言还是多语言设置下进行配对,在多数任务配置中均能提升模型性能,同时防止监督微调灾难性遗忘。我们观察到,性能提升需要基于在策略数据:离策略回复会削弱收益,而在线偏好优化未能超越离线变体。具体而言,在结构化任务中,EuroLLM-9B在7种语言中的6种、Aya-3B在7种设置中的4种上达到或超越基线水平。在开放式生成任务中,两个调优模型在11种评估语言上均优于各自基线。总体而言,我们展示了多语言偏好调优的可行方向。
现代机器人策略越来越依赖于动作分块来执行物理世界中的复杂任务。虽然动作分块在中等动作频率下能提升时间一致性,但当动作频率进一步提高(例如达到60赫兹)时,该方法变得不足。在此类高频下,策略往往难以生成既时间平滑又空间一致的动作。我们通过将高频动作学习从动作空间转移到带有变分自编码器(VAE)的潜在空间来解决这一挑战。这一方案显著提升了高频控制的时间与空间一致性。为实现流畅的实时执行,我们进一步引入了"复用-再精炼"(Reuse-then-Refine),一种基于分块级别的精炼策略,用于改善异步推理下相邻动作分块之间的连续性。由此,受我们策略控制的机器人能够以更少的停顿和抖动,持续执行复杂的接触密集型任务。在三个真实世界的接触密集型机器人任务上的实验表明,我们的方法能始终以平滑的动作完成任务。我们的代码和数据可在https://github.com/tars-robotics/RTR获取。
我们提出了EverAnimate——一种高效的后训练方法,用于生成长时间动画视频,同时保持视觉质量和角色身份一致性。长篇动画的生成仍面临挑战,因为高度动态的人体运动需要在相对静态的环境中合成,这使得基于分块的生成容易出现累积漂移:(i)低层级质量漂移,例如静态背景的逐渐退化;(ii)高层级语义漂移,例如角色身份和视角相关属性的不一致。为解决这一问题,EverAnimate通过将生成过程锚定于持久的潜在上下文记忆来修复漂移的流轨迹,该记忆由两种互补机制构成。(i)持久潜在传播:跨分块维护上下文记忆,在潜在空间中传播身份和运动信息,同时缓解时间遗忘。(ii)恢复性流匹配:在采样过程中通过速度调整引入隐式恢复目标,提升分块内的保真度。仅通过轻量级LoRA微调,EverAnimate在短时间与长时间设定下均优于现有的长动画生成方法:在10秒时,PSNR/SSIM提升8%/7%,LPIPS/FID降低22%/11%;在90秒时,性能增益扩大至15%/15%和32%/27%。
针对垂直领域的大语言模型受限于复杂、领域特定任务导向型对话的稀缺性。现有的数据采集管线面临持续的三元困境:专家标注成本高昂、真实服务对话受隐私与商业限制约束、静态语料库时效性快速衰减。我们提出Stream——一种以数据为中心的框架,通过利用公开的流媒体(直播与短视频)大规模合成高价值服务对话。Stream从嘈杂的流媒体中挖掘真实交互信号,通过将角色扎根的人物构建与对话蓝图构建相结合来合成对话;并进一步采用检索增强生成(RAG)支持知识感知的回应。基于Stream,我们发布了StreamDial——一个覆盖汽车、餐饮、酒店领域的大规模多领域数据集。StreamDial共包含87,498个对话会话与1,497,320轮次,平均每会话17.11轮次,各领域规模相当。每个会话组织为结构化四元组⟨P_u, P_a, B, H⟩,将对话历史与明确的用户/代理角色及对话蓝图配对,捕捉需求挖掘、约束冲突、协商与恢复等真实服务行为。自动评估与下游任务评测表明,StreamDial在内在对话质量上优于强基线模型,且基于StreamDial训练的模型能提升不同骨干网络的对话状态跟踪性能;我们进一步汇报了完整的人工评估集,并在受控训练预算下基于Qwen3-8B实现了令人鼓舞的多语言迁移效果。数据已发布于 https://github.com/hitxueliang/DialogDataSetBySTREAM。