每日精选AI研究论文及翻译
"文本思考"与"图像思考"范式显著提升了大型语言模型(LLMs)和视觉语言模型(VLMs)的推理能力,但这些范式存在固有局限:(1)图像仅能捕捉瞬时状态,无法呈现动态过程或连续变化;(2)文本与视觉作为独立模态的割裂,阻碍了统一的多模态理解与生成。为突破这些限制,我们提出"视频思考"新范式,通过Sora-2等视频生成模型在统一时序框架中桥接视觉与文本推理。为支撑这一探索,我们构建了视频思考基准测试集VideoThinkBench,涵盖两类任务:(1)视觉中心任务(如视觉谜题);(2)文本中心任务(如GSM8K、MMMU子集)。评估表明Sora-2具备卓越推理能力:在视觉任务中与顶尖VLMs表现相当,且在视觉游戏等任务中实现反超;在文本任务中于MATH数据集达到92%准确率,MMMU数据集达到75.53%。我们系统分析了其能力来源,并发现自洽性与上下文学习能进一步提升Sora-2性能。研究表明,视频生成模型有望成为统一的多模态理解与生成载体,使"视频思考"成为统一的多模态推理范式。
赋能大型多模态模型(LMM)实现图像交互与长程推理能力的深度融合,始终是该领域长期存在的挑战。近期以视觉为核心的推理研究探索出极具前景的"图像化思考"范式,标志着从图像辅助推理向图像交互式思维的转变。尽管这一里程碑式进展使模型能聚焦细粒度图像区域,但有限的视觉工具空间与任务定制化流程设计仍制约着进一步发展。为突破此局限,我们提出V-Thinker——一种通过端到端强化学习实现交互式视觉中心化思维的通用多模态推理助手。该框架包含两大核心组件:(1)数据进化飞轮,可沿多样性、质量与难度三维度自动合成、演进并验证交互式推理数据集;(2)视觉渐进式训练课程,先通过点级监督实现感知对齐,再经由两阶段强化学习框架融合交互推理。此外,我们推出经专家验证的VTBench基准测试集,专门针对视觉中心化交互推理任务。大量实验表明,V-Thinker在通用推理与交互推理场景中均持续超越基于LMM的强基线模型,为推进图像交互式推理应用提供了宝贵洞见。
尽管强化学习(RL)能够通过交互式自我优化赋能大语言模型(LLM)智能体,但其实际应用仍面临诸多挑战:昂贵的环境交互成本、有限的任务多样性、不可靠的奖励信号以及复杂的基础设施要求,这些因素共同阻碍了可扩展经验数据的获取。为解决这些问题,我们提出DreamGym——首个以可扩展性为核心目标、通过合成多样化经验来实现自主智能体高效在线强化学习的统一框架。该框架摒弃成本高昂的真实环境交互,将环境动态蒸馏为基于推理的经验模型,通过逐步推理生成连贯的状态转移与反馈信号,从而实现可扩展的智能体交互数据收集。为提升状态转移的稳定性和质量,DreamGym采用由真实世界离线数据初始化的经验回放缓冲区,并通过持续注入新交互数据动态支持智能体训练。在知识获取层面,框架自适应生成挑战当前策略的新任务,实现更高效的在线课程学习。跨环境与智能体架构的实验表明,DreamGym在纯合成场景与仿真到现实迁移场景中均能显著提升强化学习效果。在WebArena等非RL就绪任务上,其性能超越所有基线方法30%以上;在RL就绪但成本高昂的场景中,仅通过合成交互即可匹配GRPO和PPO的表现。当将纯合成经验训练的策略迁移至真实环境时,DreamGym能以极少的真实交互实现显著性能提升,为通用强化学习提供了可扩展的热启动策略。
我们认为,真正多模态智能的发展需要从被动响应、任务驱动的系统以及蛮力长上下文处理转向更广泛的超感知范式。我们将空间超感知定义为超越纯语言理解的四个阶段:语义感知(识别所见之物)、流式事件认知(在连续体验中维持记忆)、隐性三维空间认知(推断像素背后的世界)以及预测性世界建模(建立过滤和组织信息的内部模型)。当前基准测试大多仅检验初级阶段,对空间认知的覆盖范围狭窄,且很少以需要真正世界建模的方式挑战模型。为推动空间超感知的发展,我们提出由两部分组成的VSI-SUPER基准测试:VSR(长时程视觉空间回忆)和VSC(持续视觉空间计数)。这些任务需要任意长度的视频输入,却能有效抵抗蛮力上下文扩展。我们通过构建VSI-590K数据集并训练Cambrian-S模型,在VSI基准测试上实现了30%的绝对性能提升且未牺牲通用能力。然而模型在VSI-SUPER上的表现仍存在局限,表明仅靠规模扩展无法实现空间超感知。我们提出预测性感知作为发展方向,并通过概念验证展示了一种自监督的潜在帧预测器如何利用预测误差驱动记忆与事件分割。在VSI-SUPER测试中,该方法显著优于主流专有基线,证明空间超感知需要模型不仅能观察,更要能预测、筛选并组织经验。
我们正式推出Nemotron Nano V2 VL——Nemotron视觉语言系列的最新模型,专为强现实场景文档理解、长视频解析及推理任务而设计。该模型通过架构革新、数据集优化与训练方案升级,在视觉与文本领域全面超越了前代模型Llama-3.1-Nemotron-Nano-VL-8B。Nemotron Nano V2 VL基于混合Mamba-Transformer架构的大语言模型Nemotron Nano V2,结合创新性token压缩技术,在长文档和长视频场景中实现了更高的推理吞吐量。我们将发布BF16、FP8和FP4三种精度的模型权重,并开源大部分数据集、训练方案及核心代码。
强彩票假说(SLTH)提出,在随机初始化的神经网络中隐藏着高性能子网络,即强彩票(SLT)。尽管近期理论研究已在多种神经架构中证实了SLTH,但针对Transformer架构的SLTH仍缺乏理论支撑。特别是当前SLTH理论尚未涵盖多头注意力(MHA)机制——这一Transformer的核心组件。为填补此空白,我们首次对MHA内部存在SLT的可能性进行了理论分析。我们证明:若一个具有H个头、输入维度d的随机初始化MHA,其键值隐藏维度为O(dlog(Hd^{3/2})),则该网络极大概率包含可逼近任意同输入维度MHA的SLT。进一步地,基于此MHA理论,我们将SLTH扩展至无归一化层的Transformer架构。通过实验验证,我们发现源模型(MHA及Transformer)内部SLT与近似目标模型间的逼近误差,随源模型隐藏维度的增加呈指数级下降。
我们推出GUI-360°——一个大规模综合性数据集与基准测试套件,旨在推动计算机使用智能体(CUA)的发展。CUA研究面临独特挑战,存在三大长期瓶颈:真实CUA任务稀缺、多模态轨迹自动采集标注流程缺失、以及缺乏统一评估GUI定位、屏幕解析与行动预测的基准体系。GUI-360°通过LLM增强的自动化流程解决这些问题,涵盖查询生成、环境模板构建、任务实例化、批量执行及LLM驱动的质量过滤。发布的数据集包含数千条Windows办公软件操作轨迹,逾120万执行步骤,涵盖全分辨率屏幕截图、可获取的辅助功能元数据、实例化目标、中间推理轨迹、成功与失败操作记录。该数据集支持GUI定位、屏幕解析、行动预测三大核心任务,并提供反映现代智能体设计的GUI+API混合行动空间。基于GUI-360°对前沿视觉-语言模型的测试显示,现有模型在定位与行动预测方面存在显著不足;监督微调与强化学习虽能带来明显提升,但仍未达到人类可靠性水平。我们公开GUI-360°数据集及配套代码,以促进可复现研究并加速稳健桌面CUA的发展。完整数据集已发布于https://huggingface.co/datasets/vyokky/GUI-360。
视觉语言模型(VLM)的最新进展已在多项基准任务中实现顶尖性能。然而,互联网规模且常为专有的预训练语料库使用引发了从业者和用户共同关注的关键问题:因测试集泄露导致的性能虚高。尽管已有研究针对大型语言模型提出预训练数据净化、基准测试重构等缓解策略,但开发检测受污染VLM的互补性方向仍待探索。为填补这一空白,我们刻意对开源VLM在常用基准测试中进行污染实验,发现现有检测方法要么完全失效,要么表现不稳定。随后提出一种基于多模态语义扰动的新型检测方法,证明受污染模型在受控扰动下无法保持泛化能力。最后通过多种现实污染策略验证该方法的鲁棒性与有效性。相关代码及扰动数据集将公开释放。
稳健的基准测试对于评估多模态大语言模型(MLLMs)至关重要。然而我们发现,许多模型无需强大的视觉理解能力即可在多项多模态基准测试中取得优异成绩,这实际上是利用了数据偏差、语言先验和表面模式。对于本需依赖视觉输入的以视觉为核心的基准测试而言,这一问题尤为严重。我们采用一种诊断式基准设计原则:可被钻空子的基准终将被钻空子。因此设计者应率先尝试"破解"自身设计的基准,通过诊断与去偏差流程系统性地识别并消除非视觉偏差。有效的诊断需要直接"在测试集上训练"——通过探查已发布测试集固有的可被利用的模式来实现。 我们将这一标准具体化为两个组成部分。首先采用"测试集压力测试"(TsT)方法诊断基准的脆弱性。主要诊断工具涉及通过k折交叉验证,仅基于测试集的非视觉文本输入对强大语言模型进行微调,以揭示捷径性能并为每个样本分配偏差分数s(x)。同时辅以基于随机森林的轻量级诊断方法,该方案通过手工构建的特征实现快速可解释的审计。其次,我们通过"迭代偏差剪枝"(IBP)程序过滤高偏差样本以实现基准去偏差。将该框架应用于VSI-Bench、CV-Bench、MMMU和VideoMME四个基准测试后,我们发现了普遍存在的非视觉偏差。作为案例研究,我们应用完整框架创建了VSI-Bench-Debiased,结果显示其非视觉可解性显著降低,且视觉盲测性能差距较原始基准更为显著。
新兴大型语言模型(LLM)系统范式——如分离式推理、专家混合路由和异步强化微调——需要超越传统集合通信的灵活点对点通信能力。现有实现方案受限于特定网络接口控制器,难以集成至推理引擎且缺乏跨硬件供应商的移植性。我们提出TransferEngine,通过桥接通用网卡功能提供统一接口。该系统在不依赖网络传输顺序假设的前提下,通过ImmCounter原语实现完成通知的单边WriteImm操作,并透明管理每块GPU对应的多块网卡。我们在NVIDIA ConnectX-7和AWS弹性结构适配器上均实现了400 Gbps的峰值吞吐量。通过三个生产系统展示TransferEngine的效能:(1)支持动态扩展的分离式推理KvCache传输;(2)万亿参数模型的强化学习权重更新仅需1.3秒;(3)在ConnectX-7上实现超越DeepEP解码延迟的MoE分发/聚合方案,并在EFA上首次达到可行延迟。实验证明我们的可移植点对点通信既能与集合通信形成互补,又可有效避免硬件绑定。
我们提出EVTAR(基于附加参考的端到端虚拟试穿模型),该模型可直接将目标服装贴合至人像,并通过引入参考图像提升试穿精度。现有虚拟试穿方法大多依赖复杂输入,如不可知人像、人体姿态、密集姿态或身体关键点,导致实施繁琐且难以实际应用。相比之下,EVTAR采用两阶段训练策略,仅需源图像和目标服装即可完成简单推理。我们的模型无需掩码、密集姿态或分割图即可生成试穿效果。此外,EVTAR通过引入不同穿着者的同款服装参考图像,更好地保留服装纹理与细粒度细节。这种机制模拟了人类挑选服装时参考模特展示的思维方式,从而实现更逼真高质量的着装效果。我们通过补充参考图像和非配对人物图像来增强训练数据以支持这些功能。在两大主流基准测试及多样化任务上的实验结果表明,我们的方法持续展现出卓越有效性。
尽管多模态语言模型在高层视频理解方面表现卓越,但其跨时空的空间推理能力仍存在不足。当前的空间训练方法主要依赖真实世界视频数据,然而获取具有精确空间标注的多样化影像素材仍是主要瓶颈。为突破这一限制,我们提出SIMS-V——一种系统化的数据生成框架,通过利用三维模拟器的特权信息,为多模态语言模型创建富含空间信息的视频训练数据。基于该框架,我们通过对问题类型、混合方式和规模进行系统性消融实验,探究模拟数据的哪些特性能够有效驱动真实世界的知识迁移。研究发现,仅需三类核心问题(度量测算、视角依赖推理和时序追踪)即可构建最高效的可迁移空间智能培养方案,其效果优于全面覆盖式训练,且所需问题类型更少。这些发现实现了高效训练:我们基于2.5万条模拟数据微调的70亿参数视频大语言模型,不仅超越了720亿参数基线模型,更在严谨的真实世界空间推理基准测试中与专有模型性能相当。该方法展现出强大的泛化能力,在保持通用视频理解性能的同时,在具身交互和真实世界空间任务上实现显著提升。
语音转文本翻译系统的自动评估通常通过将翻译假设与一个或多个参考译文进行比对来实现。这种方法虽在一定程度上有效,但继承了基于参考评估的固有局限——忽略了源输入中的有价值信息。在机器翻译领域,最新研究表明融入源文本的神经度量指标能获得与人工评判更强的一致性。然而将该思路延伸至语音翻译领域存在挑战:源输入为音频而非文本,且可靠的源文本转录或源语与参考译文的对齐信息往往不可得。本研究首次系统探讨了语音翻译的源感知评估方法,重点关注源文本转录不可得的实际应用场景。我们探索了两种互补的生成输入音频文本代理的策略:自动语音识别转录和参考译文回译,并引入一种新颖的两步式跨语言重分段算法以解决合成源文本与参考译文之间的对齐失配问题。在涵盖79个语言对的两个语音翻译基准测试中,针对六种不同架构和性能水平的系统开展实验表明:当词错误率低于20%时,自动语音识别转录比回译文本更能作为可靠的合成源;而回译始终是计算成本更低且仍具效力的替代方案。此外,我们的跨语言重分段算法能够实现源感知机器翻译度量在语音翻译评估中的稳健应用,为建立更精准、更系统的语音翻译评估方法论铺平道路。
人形足球是具身智能领域的代表性挑战,它要求机器人在紧密耦合的感知-行动循环中运作。然而现有系统通常依赖解耦模块,导致动态环境中出现响应延迟与行为失协,而现实世界的感知局限更使这些问题加剧。本研究提出一种基于强化学习的统一控制器,通过视觉感知与运动控制的直接集成,使人形机器人获得反应式足球技能。我们的方法将对抗性运动先验扩展至现实动态环境的感知场景, bridging 运动模仿与视觉驱动的动态控制。我们引入结合虚拟感知系统的编码器-解码器架构,该系统能模拟真实世界的视觉特性,使策略能够从不完美观测中恢复特权状态,并建立感知与行动的主动协同。最终实现的控制器展现出强大反应能力,在包括真实RoboCup比赛在内的多种场景中持续执行协调一致的鲁棒性足球行为。
我们提出SAIL-RL——一种强化学习后训练框架,通过教导多模态大语言模型何时思考及如何思考来增强其推理能力。现有方法受限于仅关注结果的监督机制(只奖励正确答案而无法确保推理过程的合理性)和统一的思考策略(常导致简单任务过度思考而复杂任务思考不足)。SAIL-RL通过双重奖励系统应对这些挑战:思考奖励从事实依据、逻辑连贯性和答案一致性三个维度评估推理质量,判断奖励则自适应地决定应采用深度推理还是直接作答。在顶尖模型SAIL-VL2上的实验表明,SAIL-RL在4B和8B规模上均提升了推理和多模态理解基准性能,与GPT-4o等商业闭源模型相比具有竞争力,并显著减少幻觉现象,由此建立起构建更可靠、自适应MLLMs的理论框架。代码将发布于https://github.com/BytedanceDouyinContent/SAIL-RL。