每日精選AI研究論文及翻譯
「文字思維」與「影像思維」範式能顯著提升大型語言模型(LLMs)與視覺語言模型(VLMs)的推理能力,但這些範式存在固有侷限性:(1)影像僅能捕捉單一瞬間,無法呈現動態過程或連續變化;(2)文字與視覺作為分立模態的區隔,阻礙了統一的多模態理解與生成。為突破這些限制,我們提出「影片思維」新範式,透過Sora-2等影片生成模型,在統一的時序框架中橋接視覺與文字推理。為支持此探索,我們開發了影片思維基準測試集(VideoThinkBench),涵蓋兩類任務:(1)視覺核心任務(如視覺謎題),(2)文字核心任務(如GSM8K、MMMU子集)。評估結果確立Sora-2作為高效推理器的能力:在視覺核心任務中,Sora-2整體可媲美頂尖VLMs,並在視覺遊戲等任務中超越VLMs;在文字核心任務中,Sora-2於MATH數據集達到92%準確率,MMMU數據集達75.53%。我們進一步系統性分析這些能力的來源,並發現自我一致性與情境學習能提升Sora-2表現。總體而言,本研究證實影片生成模型具備成為統一多模態理解與生成模型的潛力,使「影片思維」確立為統一的多模態推理範式。
賦予大型多模態模型深度整合圖像互動與長程推理能力,始終是該領域長期存在的挑戰。近期以視覺為核心的推理研究探索出一種極具前景的「以圖思考」範式,標誌著從圖像輔助推理到圖像互動思維的轉變。儘管這一里程碑使模型能聚焦於細粒度圖像區域,但受限於有限的視覺工具空間與任務導向的工作流設計,相關進展仍面臨瓶頸。為此,我們提出通用型多模態推理助手V-Thinker,透過端到端強化學習實現互動式視覺核心思維。該框架包含兩大核心組件:(1)數據演化飛輪——沿多樣性、質量與難度三個維度自動合成、演進並驗證互動式推理數據集;(2)視覺漸進訓練課程——先透過點級監督實現感知對齊,再經兩階段強化學習框架融合互動推理。此外,我們推出專家驗證的基準測試集VTBench,專門針對視覺核心的互動推理任務。大量實驗表明,V-Thinker在通用推理與互動推理場景中均持續超越基於大型多模態模型的強基線,為推進圖像互動推理應用提供了重要啟示。
儘管強化學習(RL)能通過互動式自我改進來增強大型語言模型(LLM)智能體能力,但其實際應用仍面臨諸多挑戰:昂貴的環境推演成本、有限的任務多樣性、不可靠的獎勵信號以及複雜的基礎設施,這些因素都阻礙了可擴展經驗數據的收集。為解決這些難題,我們提出DreamGym——首個專注於可擴展性設計的統一框架,通過合成多樣化經驗數據來支持自主智能體的高效線上RL訓練。DreamGym無需依賴昂貴的真實環境推演,而是將環境動態提煉為基於推理的經驗模型,通過逐步推導生成一致的狀態轉換與反饋信號,從而實現可擴展的RL智能體推演數據收集。為提升狀態轉換的穩定性與質量,DreamGym利用經離線真實數據初始化的經驗回放緩衝區,並持續注入新互動數據以動態支持智能體訓練。在知識獲取方面,DreamGym自適應生成挑戰當前智能體策略的新任務,實現更高效的線上課程學習。在多樣化環境與智能體架構上的實驗表明,DreamGym能顯著提升RL訓練效果,無論在完全合成場景還是模擬到真實的遷移情境中均表現優異。在WebArena等非RL就緒任務上,DreamGym以超過30%的優勢全面超越基線方法;在RL就緒但成本高昂的設定中,僅憑合成互動即可匹配GRPO和PPO的性能。當將純合成經驗訓練的策略遷移至真實環境RL時,DreamGym在大幅減少真實互動次數的同時帶來顯著性能提升,為通用RL提供了可擴展的熱啟動策略。
我們主張,真正多模態智能的進展需要從被動的、任務驅動的系統與暴力長上下文處理,轉向更廣泛的超感知範式。我們將空間超感知定義為超越純語言理解的四個階段:語義感知(識別所見之物)、流式事件認知(在連續體驗中維持記憶)、隱性3D空間認知(推斷像素背後的物理世界)以及預測性世界建模(建立過濾與組織信息的內部模型)。現有基準大多僅測試初級階段,對空間認知的覆蓋範圍狹窄,且鮮少以需要真實世界建模的方式挑戰模型。為推動空間超感知發展,我們提出VSI-SUPER雙部分基準:VSR(長時程視覺空間回憶)與VSC(連續視覺空間計數)。這些任務需處理任意長度的影片輸入,卻能抵抗暴力上下文擴展。我們進一步通過構建VSI-590K數據集並訓練Cambrian-S模型測試數據擴展極限,在VSI-Bench上實現絕對性能提升30%且不損害通用能力。然而模型在VSI-SUPER上的表現仍受限,表明僅靠規模擴展不足以實現空間超感知。我們提出「預測性感知」作為發展路徑,並展示概念驗證:通過自監督的潛在幀預測器利用驚奇值(預測誤差)驅動記憶與事件分割。該方法在VSI-SUPER上顯著超越主流專有基線模型,證明空間超感知需構建不僅能「看見」、更能預期、篩選並組織經驗的模型。
我們推出 Nemotron Nano V2 VL,這是 Nemotron 視覺語言系列的最新模型,專為強大的真實世界文件理解、長影片理解與推理任務而設計。透過模型架構、資料集與訓練方法的重大改進,Nemotron Nano V2 VL 在視覺與文字領域均較前代模型 Llama-3.1-Nemotron-Nano-VL-8B 實現顯著提升。本模型基於混合 Mamba-Transformer 架構的大型語言模型 Nemotron Nano V2,並結合創新的標記縮減技術,在長文件與長影片場景中實現更高的推理吞吐量。我們將發布 BF16、FP8 與 FP4 格式的模型檢查點,並開放大規模資料集、訓練方法與程式碼。
強力樂透彩假說(SLTH)提出一項猜想:在隨機初始化的神經網絡中,隱藏著被稱為強力樂透彩(SLT)的高性能子網絡。儘管近期理論研究已在不同神經架構中證實了SLTH,但針對Transformer架構的SLTH仍缺乏理論理解。特別是目前關於SLTH的理論尚未涵蓋多頭注意力(MHA)機制——Transformer的核心組件。為填補此理論空白,我們對MHA內部存在SLT的可能性展開理論分析。我們證明:若一個隨機初始化的MHA(具有H個注意力頭與輸入維度d)其鍵值對的隱藏維度為O(dlog(Hd^{3/2})),則該MHA極大概率包含能近似任意同輸入維度MHA的SLT。進一步地,通過運用此MHA理論,我們將SLTH擴展至無歸一化層的Transformer架構。我們通過實驗驗證了理論發現:當提升源模型(MHA與Transformer)的隱藏維度時,源模型內SLT與近似目標模型之間的誤差會呈指數級下降。
我們推出GUI-360^circ——一個大規模綜合數據集與基準測試套件,旨在推動計算機使用智能體(CUAs)的發展。CUAs面臨獨特挑戰並受三大長期缺口制約:真實世界CUA任務稀缺、缺乏多模態軌跡的自動化採集註釋流程,以及缺少能聯合評估GUI定位、屏幕解析與動作預測的統一基準。GUI-360^circ通過LLM增強的高度自動化流程(涵蓋查詢源獲取、環境模板構建、任務實例化、批量執行及LLM驅動的質量過濾)解決這些缺口。發布的數據集包含熱門Windows辦公軟件中數千條軌跡的逾120萬次執行動作步驟,涵蓋全分辨率截圖、可用的無障礙元數據、實例化目標、中間推理軌跡,以及成功與失敗的動作軌跡。該數據集支持三項核心任務(GUI定位、屏幕解析與動作預測)及反映現代智能體設計的混合GUI+API動作空間。在GUI-360^circ上對標頂尖視覺-語言模型的結果顯示,其在定位與動作預測方面存在顯著原生缺陷;監督微調與強化學習雖帶來明顯提升,但仍未達到人類級可靠性。我們公開GUI-360^circ及配套代碼,以促進可重現研究並加速魯棒桌面CUAs的發展。完整數據集已公開於:https://huggingface.co/datasets/vyokky/GUI-360。
视觉语言模型(VLM)的最新进展已在众多基准任务中实现最先进的性能。然而,使用网络规模且常为专有的预训练语料库引发了从业者和用户共同关注的关键问题:因测试集泄露导致的性能虚高。尽管已有研究针对大型语言模型提出了预训练数据净化与基准重设计等缓解策略,但开发针对受污染视觉语言模型检测方法的互补方向仍探索不足。为填补这一空白,我们刻意对开源视觉语言模型在流行基准上进行污染实验,发现现有检测方法要么完全失效,要么表现出不一致的行为。随后我们提出一种基于多模态语义扰动的新型检测方法,该方法简洁而有效,证明受污染模型在受控扰动下无法保持泛化能力。最后,我们通过多种现实污染策略验证了该方法的鲁棒性和有效性。相关代码与扰动数据集将公开发布。
稳健的基准测试对于评估多模态大语言模型(MLLM)至关重要。然而我们发现,许多模型无需强大的视觉理解能力就能在 multimodal 基准测试中取得优异成绩,它们实际是利用了数据偏差、语言先验和表面模式。这对本需依赖视觉输入的以视觉为核心的基准测试尤为不利。我们采用一项诊断性基准设计原则:可被钻空子的基准终将被钻空子。因此设计者应率先尝试"破解"自身设计的基准,通过诊断和去偏差流程系统性地识别并消除非视觉偏差。有效的诊断需要直接"在测试集上训练"——通过探查已发布测试集固有的可被利用模式来实现。 我们将这一标准具体化为两个组成部分。首先采用"测试集压力测试"(TsT)方法诊断基准的脆弱性。主要诊断工具涉及通过k折交叉验证,仅基于测试集的非视觉文本输入对强大语言模型进行微调,以揭示捷径性能并为每个样本分配偏差分数s(x)。同时辅以基于随机森林的轻量级诊断方法(利用手工特征实现快速可解释的审计)。其次通过"迭代偏差剪枝"(IBP)流程过滤高偏差样本以实现基准去偏差。将该框架应用于VSI-Bench、CV-Bench、MMMU和VideoMME四个基准测试后,我们发现了普遍存在的非视觉偏差。作为案例研究,我们应用完整框架创建了VSI-Bench-Debiased,结果显示其非视觉可解性显著降低,且视觉盲区性能差距较原版基准更为显著。
新兴大语言模型(LLM)系统范式——如分离式推理、专家混合(MoE)路由和异步强化学习微调——需要超越简单集合通信的灵活点对点通信能力。现有实现方案受限于特定网络接口控制器(NIC),难以集成至推理引擎且缺乏跨硬件供应商的移植性。我们提出TransferEngine,通过桥接通用NIC功能来提供统一接口。该系统暴露具有ImmCounter完成通知原语的单边WriteImm操作,无需网络传输的排序假设即可实现每GPU多NIC的透明管理。我们在NVIDIA ConnectX-7和AWS弹性结构适配器(EFA)上均实现了400 Gbps的峰值吞吐量。通过三个生产系统展示TransferEngine的效能:(1)支持动态扩展的分离式推理KvCache传输;(2)万亿参数模型的RL权重更新仅需1.3秒;(3)MoE分发/聚合实现在ConnectX-7上超越DeepEP解码延迟,并在EFA上首次实现可行延迟。实验证明我们的可移植点对点通信既能与集合通信形成互补,又可有效避免供应商锁定。
我們提出EVTAR——一種帶有附加參考的端到端虛擬試穿模型,該模型能直接將目標服裝擬合至人體圖像,同時通過引入參考圖像來提升試穿精準度。現有虛擬試穿方法大多依賴複雜輸入(如不可知人體圖像、人體姿態、密集姿態或身體關鍵點),導致流程繁瑣且難以應用於實際場景。與此不同,EVTAR採用兩階段訓練策略,僅需源圖像和目標服裝即可實現簡潔的推理過程。我們的模型無需遮罩、密集姿態或分割圖即可生成試穿效果,更通過引入不同穿著者身穿同款服裝的附加參考圖像,更好地保留服裝紋理與細粒度細節。這種機制模擬了人類挑選服裝時參考模特展示的決策過程,從而實現更逼真高質量的著裝效果。為支持這些功能,我們通過補充參考圖像和未配對人體圖像來擴充訓練數據。我們在兩個廣泛使用的基準測試和多樣化任務上評估EVTAR,結果一致驗證了本方法的有效性。
尽管多模态语言模型在高层级视频理解方面表现卓越,但其跨时空的空间推理能力仍有不足。当前的空间训练方法主要依赖真实世界视频数据,然而获取具有精确空间标注的多样化影像资料仍是瓶颈。为突破此限制,我们提出SIMS-V——一个系统化的数据生成框架,通过利用三维模拟器的特权信息,为多模态语言模型创建富含空间信息的视频训练数据。借助该框架,我们通过系统性地解构问题类型、混合方式和规模,探究模拟数据的哪些特性能够有效驱动现实世界的迁移应用。我们发现仅需三类核心问题(度量测算、视角依赖推理和时序追踪)即可最有效地培养可迁移的空间智能,其效果甚至优于全面覆盖多种问题类型的方案。这些发现实现了高效训练:基于仅2.5万组模拟样本微调的70亿参数视频大语言模型,不仅超越720亿参数的更大基线模型,更在严谨的现实空间推理基准测试中与专有模型性能相当。我们的方法展现出强大的泛化能力,在保持通用视频理解性能的同时,在具身交互和现实空间任务上实现显著提升。
語音到文本翻譯(ST)系統的自動評估通常通過將翻譯假設與一個或多個參考譯文進行比較來實現。雖然這種方法在一定程度上有效,但它繼承了基於參考評估的局限性,即忽視了源輸入中的寶貴信息。在機器翻譯(MT)領域,最新進展表明,融入源文本的神經度量指標能與人工判斷達成更強的相關性。然而,將這一思路擴展到語音翻譯並非易事,因為源輸入是音頻而非文本,且可靠的轉錄稿或源語與參考譯文的對齊信息通常難以獲取。本研究首次對語音翻譯的源感知度量指標進行系統性探索,特別關注源文本轉錄稿不可用的現實操作場景。我們提出了兩種互補策略來生成輸入音頻的文本代理——自動語音識別(ASR)轉錄稿和參考譯文的回譯文本,並引入一種新穎的兩步跨語言重分詞算法,以解決合成源文本與參考譯文之間的對齊失配問題。在涵蓋79個語言對的兩個語音翻譯基準測試中,針對六種不同架構和性能水平的語音翻譯系統開展的實驗表明:當詞錯誤率低於20%時,ASR轉錄稿構成的合成源文本比回譯文本更可靠;而回譯文本始終是計算成本更低但仍有效的替代方案。此外,我們的跨語言重分詞算法能夠在語音翻譯評估中實現源感知機器翻譯指標的穩健運用,為建立更精準、更系統化的語音翻譯評估方法鋪平道路。
人形足球是具身智能领域的一项代表性挑战,要求机器人在紧密耦合的感知-行动循环中运作。然而现有系统通常依赖解耦模块,导致动态环境中出现响应延迟与行为失协,而现实世界的感知局限更使这些问题加剧。本研究提出一种基于强化学习的统一控制器,通过视觉感知与运动控制的直接集成,使人形机器人获得反应式足球技能。我们的方法将对抗性运动先验扩展至现实动态环境中的感知场景,搭建起运动模仿与视觉驱动的动态控制之间的桥梁。我们引入结合虚拟感知系统的编码器-解码器架构,该系统能模拟真实世界的视觉特性,使策略能够从不完美观测中恢复特权状态,并建立感知与行动的主动协同。最终实现的控制器展现出强大的反应能力,能在包括真实RoboCup比赛在内的多种场景中持续执行协调一致的鲁棒性足球行为。
我们提出SAIL-RL——一种强化学习后训练框架,通过教导多模态大语言模型何时思考及如何思考来增强其推理能力。现有方法受限于仅关注结果的监督机制(只奖励正确答案而无法确保推理过程的合理性)和统一的思考策略(常导致简单任务过度思考而复杂任务思考不足)。SAIL-RL通过双重奖励系统应对这些挑战:思考奖励从事实依据、逻辑连贯性和答案一致性三个维度评估推理质量,判断奖励则自适应地决定应采用深度推理还是直接作答。在最新SAIL-VL2模型上的实验表明,SAIL-RL在40亿和80亿参数规模下均能提升推理和多模态理解基准性能,在与GPT-4o等商业闭源模型的对比中展现出竞争优势,并显著减少幻觉现象,由此确立为构建更可靠、自适应多模态大语言模型的原理性框架。代码将发布于https://github.com/BytedanceDouyinContent/SAIL-RL。