每日精選AI研究論文及翻譯
我們提出了一個全棧框架,該框架利用強化學習來擴展視覺語言模型(VLMs)在長視頻中的推理能力。我們通過整合三個關鍵組件來應對長視頻推理的獨特挑戰:(1)一個大規模數據集LongVideo-Reason,包含52K個長視頻問答對,涵蓋體育、遊戲和視頻博客等多個領域的高質量推理註釋;(2)一個兩階段訓練管道,通過鏈式思維監督微調(CoT-SFT)和強化學習(RL)擴展VLMs;(3)一個專為長視頻RL設計的訓練基礎設施,名為多模態強化序列並行(MR-SP),該設施結合了序列並行性和一個基於vLLM的引擎,利用緩存的視頻嵌入進行高效的滾動和預填充。在實驗中,LongVILA-R1-7B在長視頻問答基準測試如VideoMME上表現出色。它還超越了Video-R1-7B,並在我們的LongVideo-Reason-eval基準測試中,在時間推理、目標和目的推理、空間推理以及情節推理方面與Gemini-1.5-Pro相匹配。值得注意的是,我們的MR-SP系統在長視頻RL訓練上實現了高達2.1倍的加速。LongVILA-R1在輸入視頻幀數增加時表現出持續的性能提升。LongVILA-R1標誌著VLMs在長視頻推理方面邁出了堅實的一步。此外,我們公開了我們的訓練系統,該系統支持在多種模態(視頻、文本和音頻)、多種模型(VILA和Qwen系列)以及圖像和視頻生成模型上進行RL訓練。在單個A100節點(8個GPU)上,它支持對長達一小時的視頻(例如,3,600幀/約256k個令牌)進行RL訓練。
雖然擴散模型微調提供了一種強大的方法來定制預訓練模型以生成特定對象,但在訓練樣本有限的情況下,它經常會出現過擬合問題,從而損害泛化能力和輸出多樣性。本文解決了使用單一概念圖像來適應擴散模型這一具有挑戰性但最具影響力的任務,因為單圖像定制具有最大的實際潛力。我們引入了T-LoRA,這是一個專為擴散模型個性化設計的時間步依賴低秩適應框架。在我們的工作中,我們展示了較高的擴散時間步比較低的時間步更容易過擬合,這需要一種對時間步敏感的微調策略。T-LoRA包含兩個關鍵創新:(1) 一種動態微調策略,根據擴散時間步調整秩約束更新;(2) 一種權重參數化技術,通過正交初始化確保適配器組件之間的獨立性。大量實驗表明,T-LoRA及其各個組件在標準LoRA和其他擴散模型個性化技術中表現優異。它們在概念保真度和文本對齊之間實現了更好的平衡,凸顯了T-LoRA在數據有限和資源受限場景中的潛力。代碼可在https://github.com/ControlGenAI/T-LoRA獲取。
诸如OpenAI-o3等模型通过动态引用视觉区域,开创了视觉基础推理的先河,恰似人类“以图像思考”的方式。然而,目前尚缺乏全面评估此类能力的基准。为填补这一空白,我们提出了TreeBench(可追踪证据评估基准),这一诊断性基准建立在三大原则之上:(1) 在复杂场景中对细微目标的聚焦视觉感知,(2) 通过边界框评估实现可追踪的证据,(3) 二阶推理以测试超越简单物体定位的对象交互与空间层级关系。我们优先选择包含密集物体的图像,最初从SA-1B中采样了1,000张高质量图片,并邀请八位LMM专家手动为每张图片标注问题、候选选项及答案。经过三个阶段的质控,TreeBench最终包含405对极具挑战性的视觉问答对,即便是最先进的模型也在此基准上表现挣扎,无一达到60%的准确率,例如OpenAI-o3仅得54.87分。此外,我们引入了TreeVGR(可追踪证据增强的视觉基础推理),一种结合强化学习共同监督定位与推理的训练范式,旨在实现精准定位与可解释的推理路径。基于Qwen2.5-VL-7B初始化,该范式在V* Bench(+16.8)、MME-RealWorld(+12.6)及TreeBench(+13.4)上均取得显著提升,证实了可追踪性对于推进视觉基础推理的关键作用。相关代码已发布于https://github.com/Haochen-Wang409/TreeVGR。
近期,多模态大語言模型(MLLMs)在整合視覺與語言以進行複雜推理方面展現了顯著的能力。儘管現有的大多數基準測試都是在離線設置下使用一組固定的預錄輸入來評估模型,我們引入了OST-Bench,這是一個旨在從主動探索場景的代理視角評估在線時空理解的基準測試。在線方面強調了處理和推理逐步獲取的觀察結果的需求,而時空組件則要求將當前的視覺輸入與歷史記憶相結合,以支持動態的空間推理。OST-Bench更好地反映了現實世界具身感知的挑戰。基於高效的數據收集管道,OST-Bench由來自ScanNet、Matterport3D和ARKitScenes的1.4k個場景和10k個問答對組成。我們在OST-Bench上評估了幾個領先的MLLMs,並觀察到它們在需要複雜時空推理的任務上表現不佳。在在線設置下,隨著探索範圍的擴大和記憶的增長,它們的準確性下降。通過進一步的實驗分析,我們識別了模型間的常見錯誤模式,並發現基於複雜線索的空間推理需求和長期記憶檢索需求分別顯著降低了模型性能,這凸顯了改進在線具身推理必須解決的核心挑戰。為了促進該領域的進一步研究和發展,我們的代碼、數據集和基準測試均已公開。我們的項目頁面是:https://rbler1234.github.io/OSTBench.github.io/
視頻大型語言模型(LLMs)通過利用大量時空標記實現了強大的視頻理解能力,但卻面臨著計算量隨標記數量呈二次方增長的問題。為解決這一問題,我們提出了一種無需訓練的時空標記合併方法,名為STTM。我們的核心洞察是挖掘視頻數據中未被先前工作重視的局部空間和時間冗餘。STTM首先通過在四叉樹結構上進行從粗到細的搜索,將每一幀轉換為多粒度空間標記,然後在時間維度上進行定向成對合併。這種分解式的合併方法在六個視頻問答基準測試中均優於現有的標記縮減技術。值得注意的是,STTM在50%的標記預算下實現了2倍的加速,且準確率僅下降0.5%;在30%的預算下,加速比達到3倍,準確率下降僅為2%。此外,STTM與查詢無關,允許對同一視頻的不同問題重複使用KV緩存。項目頁面詳見https://www.jshyun.me/projects/sttm。
大型语言模型(LLMs)正日益被部署为具备规划、推理及动态调用外部工具能力的代理系统。然而,在视觉推理领域,先前的方法大多受限于预定义的工作流程和静态工具集。本报告中,我们介绍了PyVision,一个交互式、多轮次的框架,它使得多模态大型语言模型(MLLMs)能够自主生成、执行并优化针对特定任务定制的基于Python的工具,从而开启了灵活且可解释的问题解决之门。我们构建了由PyVision创建的工具分类体系,并分析了这些工具在多样化基准测试中的应用情况。定量分析显示,PyVision实现了持续的性能提升,在V*基准上将GPT-4.1的性能提高了+7.8%,在VLMsAreBlind-mini基准上使Claude-4.0-Sonnet的性能提升了+31.1%。这些成果预示着一个更广泛的转变:动态工具化不仅让模型能够使用工具,更能发明工具,推动着视觉推理向更具代理性的方向迈进。
視頻本質上是動態三維世界的二維投影。然而,我們的分析表明,僅在原始視頻數據上訓練的視頻擴散模型往往無法在其學習到的表徵中捕捉到有意義的幾何感知結構。為了彌合視頻擴散模型與物理世界底層三維特性之間的差距,我們提出了幾何約束(Geometry Forcing),這是一種簡單而有效的方法,旨在促使視頻擴散模型內化潛在的三維表徵。我們的核心洞見是通過將模型的中間表徵與預訓練的幾何基礎模型的特徵對齊,來引導其朝向幾何感知結構發展。為此,我們引入了兩個互補的對齊目標:角度對齊(Angular Alignment),通過餘弦相似度強制方向一致性;以及尺度對齊(Scale Alignment),通過從歸一化的擴散表徵回歸未歸一化的幾何特徵來保留與尺度相關的信息。我們在相機視角條件和動作條件的視頻生成任務上評估了幾何約束。實驗結果表明,與基線方法相比,我們的方法顯著提升了視覺質量和三維一致性。項目頁面:https://GeometryForcing.github.io。
本文介紹了LangSplatV2,該系統在高解析度影像上實現了476.2 FPS的高維特徵噴射和384.6 FPS的3D開放詞彙文本查詢,分別提供了42倍的速度提升和47倍的性能提升,同時提高了查詢準確性。LangSplat採用高斯噴射技術將2D CLIP語言特徵嵌入3D空間,顯著提升了速度並學習了精確的3D語言場,結合了SAM語義。這些3D語言場的進步對於需要在複雜場景中進行語言交互的應用至關重要。然而,即使使用先進的A100 GPU,LangSplat仍未實現實時推理性能(8.2 FPS),這嚴重限制了其廣泛應用。在本文中,我們首先對LangSplat進行了詳細的時間分析,發現重量級解碼器是主要的速度瓶頸。我們的解決方案LangSplatV2假設每個高斯在全局字典中充當稀疏編碼,從而學習了一個3D稀疏係數場,完全消除了對重量級解碼器的需求。通過利用這種稀疏性,我們進一步提出了一種高效的稀疏係數噴射方法,並進行了CUDA優化,在僅需噴射超低維特徵的時間成本下,渲染出高質量的高維特徵圖。我們的實驗結果表明,LangSplatV2不僅在查詢準確性上表現更好或具有競爭力,而且速度顯著提升。代碼和演示可在我們的項目頁面獲取:https://langsplat-v2.github.io。
尽管在视频生成模型方面已取得显著进展,现有最先进的方法仅能制作持续5至16秒的视频,常被标记为“长视频”。此外,超过16秒的视频在叙事过程中难以保持角色外观和场景布局的一致性。特别是,涉及多主体的长视频仍无法维持角色一致性和动作连贯性。虽然某些方法能够生成长达150秒的视频,但往往存在帧冗余和时序多样性低的问题。近期研究尝试制作包含多个角色、叙事连贯且细节高保真的长视频。我们全面研究了32篇关于视频生成的论文,以识别出能够持续产出这些品质的关键架构组件和训练策略。同时,我们构建了一套全面的现有方法分类体系,并提供了按架构设计和性能特征分类的对比表格。
預訓練的神經網絡能否在不進行微調的情況下,根據不同輸入調整其架構?對於簡單任務,我們是否需要所有層次,而這些層次又是否足以應對挑戰性任務?我們發現,預訓練的大型語言模型(LLM)的各層可以作為獨立模塊進行操作,從而為每個測試樣本構建出更優甚至更淺的定制模型。具體而言,預訓練模型中的每一層都可以被跳過/剪枝或像循環神經網絡(RNN)那樣多次重複,並以任意順序與其他層堆疊,形成每個樣本的層鏈(CoLa)。這種組合空間極大地擴展了現有工作關於循環/重複預訓練模塊、層剪枝或早期退出網絡的範疇。我們開發了一種蒙特卡洛樹搜索(MCTS)協議,用於探索並識別來自數學和常識推理基準測試中每個樣本的最優CoLa。與固定深度的靜態模型相比,CoLa允許捷徑路徑(快速思考)、同一層次的重複(慢速思考)以及兩者的結合,為不同輸入提供了更靈活、動態的架構。我們對MCTS優化的CoLa進行了廣泛分析,得出了兩個關鍵發現:(1)對於原始LLM預測正確的超過75%的樣本,我們能找到更短的CoLa,這表明在提升推理效率方面存在巨大空間;(2)對於原始預測錯誤的超過60%的樣本,我們能識別出實現正確預測的CoLa,這表明在性能提升方面存在廣闊空間。我們的結果凸顯了使用固定架構的預訓練LLM對不同樣本進行推理的不足,並為解鎖測試時深度適應的泛化能力鋪平了道路。
從動態場景中提取緊湊且具有時間感知的視覺表徵,對於成功執行視覺追蹤和機器人操作等序列場景理解任務至關重要。本文介紹了Token Bottleneck(ToBo),這是一種簡單而直觀的自監督學習流程,它將場景壓縮成一個瓶頸token,並使用最少的圖像塊作為提示來預測後續場景。ToBo流程通過在壓縮步驟中將參考場景保守地編碼為一個緊湊的瓶頸token,促進了序列場景表徵的學習。在擴展步驟中,我們引導模型通過使用瓶頸token以及少量目標圖像塊作為提示來預測目標場景,從而捕捉時間動態。這一設計鼓勵視覺骨幹網絡嵌入時間依賴性,從而實現對場景間動態轉變的理解。在包括視頻標籤傳播和模擬環境中的機器人操作等多樣化序列任務中的廣泛實驗,展示了ToBo相較於基線方法的優越性。此外,將我們預訓練的模型部署在實體機器人上,證實了其在真實環境中的魯棒性和有效性。我們進一步驗證了ToBo在不同模型規模上的可擴展性。
根據哲學家哈里·法蘭克福的概念,胡扯(Bullshit)指的是不考慮其真實價值而做出的陳述。雖然先前的研究已經探討了大語言模型(LLM)的幻覺和諂媚現象,但我們提出「機器胡扯」作為一個總體概念框架,使研究人員能夠描述LLM中出現的廣泛真實性喪失現象,並揭示其潛在機制。我們引入了「胡扯指數」,這是一種量化LLM對真相漠視的新指標,並提出了一個補充分類法,分析了四種定性形式的胡扯:空洞修辭、模棱兩可、含糊其辭和未經證實的聲明。我們在Marketplace數據集、政治中立性數據集以及我們新設計的BullshitEval基準(涵蓋100個AI助手的2400個場景)上進行了實證評估,這些數據集專門用於評估機器胡扯。我們的結果表明,通過人類反饋強化學習(RLHF)進行的模型微調顯著加劇了胡扯現象,而推理時的思維鏈(CoT)提示則特別放大了某些胡扯形式,尤其是空洞修辭和模棱兩可。我們還觀察到在政治背景下普遍存在的機器胡扯,其中含糊其辭是主要策略。我們的研究結果凸顯了AI對齊中的系統性挑戰,並為實現更真實的LLM行為提供了新的見解。
尽管近年来语言模型(LMs)取得了令人瞩目的进展,这主要归功于从为特定任务设计的专用模型转向基于强大架构(如Transformer)的通用模型,这些模型从原始数据中学习一切,但诸如分词等预处理步骤仍然是实现真正端到端基础模型的障碍。我们引入了一系列新技术,这些技术实现了一种动态分块机制,能够自动学习内容及上下文依赖的分割策略,并与模型的其他部分联合学习。将这一机制整合到一个显式的层次网络(H-Net)中,可以替代(隐含层次化的)分词-语言模型-去分词流程,用一个完全端到端学习的单一模型取而代之。在计算资源和数据量相匹配的情况下,一个在字节级别操作的单一层次H-Net,其表现优于基于BPE分词的强大Transformer语言模型。通过迭代增加层次结构以建模多级抽象,H-Net的性能进一步提升,显示出显著优于数据规模的增长,并与两倍大小的基于分词的Transformer模型相匹敌。在英语上预训练的H-Nets展现出显著增强的字符级鲁棒性,并在无任何启发式方法或显式监督的情况下,定性学习到有意义的数据依赖分块策略。最后,在分词启发式方法较弱的中文、代码或DNA序列等语言和模态中,H-Net相对于分词流程的改进更为显著(数据效率较基线提升近4倍),展示了从未经处理的数据中更好学习和扩展的真正端到端模型的潜力。
大多數最先進的視覺-語言模型(VLMs)在抽象推理任務上似乎受到其視覺嵌入線性可分離性的限制。本研究通過引入線性可分離性上限(LSC),即簡單線性分類器在VLM視覺嵌入上的表現,來探討這一“線性推理瓶頸”。我們發現這一瓶頸普遍存在,且並非源於感知能力不足,而是來自語言模型推理路徑的缺陷。我們證明這是一個可解決的對齊問題。然而,所需的干預措施依任務而異:對於語義概念,激活現有路徑已足夠;而複雜的關係推理則需要調整模型的核心權重。使用後綴調諧作為方法學控制,我們發現了VLMs內部存在強大但休眠的推理路徑的有力證據。然而,對於需要更深層次適應的複雜關係任務,顯著提升表示質量會導致模型在新的提示格式上失敗,儘管其嵌入仍保持良好分離。最終,這項工作為VLM分析提供了新的視角,表明穩健的推理是針對性對齊的問題,而不僅僅是改進表示學習。
神經音頻編解碼器與自編碼器已成為音頻壓縮、傳輸、特徵提取及潛在空間生成的多功能模型。然而,其關鍵限制在於大多數模型訓練時以最大化重建保真度為目標,往往忽視了在多樣下游應用中實現最佳性能所需的特定潛在結構。我們提出了一個簡單的事後框架來解決這一問題,通過修改預訓練自編碼器的瓶頸部分。我們的方法引入了一種“重瓶頸”機制,這是一個僅通過潛在空間損失進行訓練的內部瓶頸,旨在植入用戶定義的結構。我們通過三個實驗展示了該框架的有效性。首先,我們在不犧牲重建質量的前提下,對潛在通道施加了排序。其次,我們將潛在變量與語義嵌入對齊,分析其對下游擴散建模的影響。第三,我們引入了等變性,確保輸入波形上的濾波操作直接對應於潛在空間中的特定變換。最終,我們的重瓶頸框架提供了一種靈活且高效的方式來定制神經音頻模型的表示,使其能夠以最少的額外訓練無縫滿足不同應用的多樣化需求。
当前扩展大型语言模型(LLMs)的主流范式依赖于整体、端到端的训练,这一过程资源消耗巨大且缺乏灵活性。本文探讨了一种基于非可训练、确定性输入嵌入的替代性、建设性模型开发方法。在先前的研究[1]中,我们证实了利用源自Unicode字符视觉结构的冻结嵌入,Transformer模型能够涌现出高层次的语义推理能力。在此,我们进一步展示这一固定表示基底充当了通用的“对接端口”,支持两种强大且高效的扩展范式:无缝模块化组合与渐进式层级增长。 首先,我们展示了针对不同数据集(如俄文与中文文本)训练的专业模型,在无需架构改动的情况下,通过简单平均其输出逻辑值,即可在训练后合并为一个能力更强的专家混合模型(MoE)。该MoE模型在MMLU等推理基准测试中立即展现出性能提升,超越了其组成专家,且未发生灾难性遗忘。其次,我们引入了一种层级建设性训练方法,通过逐层堆叠并训练,逐步“生长”出一个深度Transformer模型。此方法展现了稳定的收敛性,并揭示了模型深度与复杂推理能力(如SQuAD所需)涌现之间的明确关联。 我们的发现提示了一种从整体优化向更生物化或建设性AI开发模式的范式转变,其中复杂性是逐步构建的,模块可以自由组合。这为资源高效扩展、持续学习以及构建强大AI系统的更民主化生态系统开辟了新途径。我们公开所有代码与模型,以促进进一步研究。
AI代理的快速發展點燃了長期以來利用其加速科學發現的雄心。實現這一目標需要對人類知識前沿的深刻理解。因此,「人類終極考試」(HLE)為評估科學AI代理提供了一個極具挑戰性的試金石。在本研究中,我們旨在構建通用代理的基礎架構,並通過在HLE上的領先表現來驗證其能力。為此,我們引入了X-Master,這是一個工具增強型推理代理,旨在通過在推理過程中靈活與外部工具互動來模擬人類研究人員。該代理以代碼作為互動語言的概念為指導,能夠靈活利用內置的Python庫和我們定制的工具來增強推理能力。我們進一步通過X-Masters擴展其能力,這是一種分散與堆疊的代理工作流程,系統性地提升推理的廣度和深度。我們開源的解決方案X-Masters在HLE上創下了32.1%的新紀錄,超越了OpenAI和Google的深度研究(分別為26.6%和26.9%),並首次突破30%的門檻。這項工作使我們能夠更深入地理解複雜任務的解決,並積累寶貴的經驗,為未來的進步提供指導,引導後續的模型訓練。
理解大型語言模型(LLMs)中語義表徵的所在,對於模型的可解釋性與架構創新至關重要。主流觀點認為,可訓練的輸入嵌入層是基礎的「意義向量」。本文對此觀點提出挑戰。我們構建了Transformer模型,其中嵌入層完全凍結,其向量並非源自數據,而是基於Unicode字符的視覺結構。這些非語義的、預先計算的視覺嵌入在整個訓練過程中保持固定。我們的方法兼容於任何分詞器,包括我們引入的一種新型以Unicode為核心的分詞器,以確保對所有文本的覆蓋。儘管缺乏可訓練的、語義初始化的嵌入,我們的模型仍能收斂,生成連貫的文本,並且關鍵的是,在MMLU推理基準測試中,其表現超越了架構相同但具有可訓練嵌入的模型。我們將此歸因於傳統模型中的「表徵干擾」,即嵌入層被迫同時學習結構與語義特徵。我們的結果表明,高層次的語義並非輸入嵌入的固有屬性,而是Transformer組合架構與數據規模的湧現特性。這重新定義了嵌入的角色,從意義的容器轉變為結構的基礎單元。我們公開所有代碼與模型,以促進進一步的研究。