每日精選AI研究論文及翻譯
儘管大型多模態模型已取得顯著進展,其核心推理模態仍以文本為主,過度依賴語言表徵。這導致模型在處理以視覺為主導的推理任務時存在侷限性。近期研究嘗試通過輔助圖像、深度圖或圖像裁剪來監督中間視覺步驟,但這些策略對「有效」視覺抽象表徵施加了侷限性先驗,不僅增加高昂的標註成本,還難以實現跨任務泛化。為突破此關鍵限制,我們提出一種任務無關機制,使大型多模態模型能在無顯式監督的情況下自主發現並運用視覺推理標記。這些標記通過全局注意力機制以任務自適應方式對圖像進行重編碼,使模型無需人工標註即可提取相關視覺信息。我們的方法在多樣化視覺中心任務(包括難以定義中間抽象表徵的任務)上超越直接微調效果,達到最先進水平,同時展現出多任務指令調優的泛化能力。
基於下一個詞元預測進行大規模預訓練、並透過強化學習(RL)進行微調的自迴歸模型,已在多個問題領域取得前所未有的成功。在強化學習過程中,這類模型透過逐詞元生成新輸出進行探索。然而,逐詞元採樣行動可能導致學習效率低下,尤其在獎勵稀疏的情境下更為明顯。本文證明,透過在自迴歸模型的內部表徵空間中進行行動與探索,可有效解決此問題。具體而言,為發現時序抽象的行動,我們引入一種高階非因果序列模型,其輸出可控制基礎自迴歸模型的殘差流激活狀態。在具層級結構的網格世界與MuJoCo任務中,我們發現高階模型能將長激活序列塊壓縮至內部控制器。關鍵在於,每個控制器能執行行為意義明確的行動序列,這些行動在長時間尺度上展開並附帶學習得到的終止條件,使得隨時間組合多個控制器可實現新任務的高效探索。我們提出「內部強化學習」——即直接對內部控制器進行強化的過程,能在標準RL微調失效的稀疏獎勵場景中實現有效學習。研究結果揭示了自迴歸模型中潛在行動生成與強化的優勢,表明內部強化學習可作為實現基礎模型中層級強化學習的可行路徑。
現有的影片生成模型因視訊訊號具有密集高維特性,難以維持長時空的連續一致性。為突破此限制,我們提出 Spatia——一種空間記憶感知的影片生成框架,其核心在於顯式地將三維場景點雲作為持久化空間記憶進行維護。Spatia 基於此空間記憶迭代生成影片片段,並透過視覺 SLAM 技術持續更新記憶庫。這種動靜態解耦的設計不僅強化了生成過程中的空間連貫性,同時保留了模型生成逼真動態實體的能力。此外,Spatia 支援顯式相機控制與三維感知互動編輯等應用,為可擴展的記憶驅動式影片生成提供了幾何基礎的框架。
大型語言模型日益展現出推理軌跡,但其底層認知結構與步驟仍難以超越表面統計數據進行識別與分析。我們採用舍恩菲爾德的片段理論作為歸納性中觀尺度視角,提出ThinkARM(模型推理解剖)框架,該框架可將推理軌跡顯式抽象為功能性推理步驟,如分析、探索、實施、驗證等。在應用於多樣化模型的數學問題求解時,這種抽象方法揭示了可重現的思維動態,以及推理模型與非推理模型之間的結構性差異,這些差異在詞元層面視角下並不明顯。我們進一步提出兩項診斷性案例研究:其一顯示探索功能作為關鍵分支步驟與解題正確性相關,其二表明效率導向方法會選擇性抑制評估反饋步驟而非均勻縮短回應。綜合而言,我們的研究結果證明片段層級表徵能使推理步驟顯性化,從而系統性分析現代語言模型中推理的結構化、穩定化與變異機制。
影片是3D世界的連續二維投影。在大量影片數據上訓練後,全局3D理解能力是否會自然湧現?我們透過量化現有影片基礎模型(VidFMs)的3D理解能力來研究此問題,這些模型已在海量影片數據上進行預訓練。我們提出首個模型無關框架,透過淺層讀取器從模型特徵中估算多種3D屬性,從而衡量各類VidFMs的3D認知能力。我們的研究在多個維度上揭示了VidFMs具備有意義的3D認知表現。特別值得注意的是,研究顯示最先進的影片生成模型即使未經任何3D數據訓練,仍能展現對3D物體與場景的深刻理解,其理解程度甚至可超越專門針對3D任務訓練的大型專家模型。這些發現連同對主流VidFMs的3D基準測試結果,為構建可擴展的3D模型提供了重要洞見。
基於視覺語言模型(VLM)建構的多模態代理,其多輪強化學習(RL)長期受稀疏獎勵與長時程信度分配問題制約。近期研究通過查詢能提供步驟級反饋的教師模型來密集化獎勵信號(例如引導思維強化GTR與策略蒸餾法),但這些方法依賴成本高昂且通常具特權的教師模型,限制了實用性與可複現性。我們提出GTR-Turbo,作為GTR的高效升級版,能在無需訓練或查詢昂貴教師模型的情況下達成同等性能。具體而言,GTR-Turbo融合在線RL訓練過程中產生的檢查點權重,並將此融合模型作為「免費」教師,通過監督微調或軟邏輯蒸餾指導後續RL訓練。此設計消除了對特權VLM(如GPT或Gemini)的依賴,緩解了先前研究中觀察到的「熵崩潰」現象,並保持訓練穩定性。在多樣化視覺代理任務中,相較於GTR,GTR-Turbo將基準模型準確率提升10-30%,同時減少50%的實時訓練時間與60%的計算成本。
自迴歸視覺生成模型依賴標記器將圖像與離散序列相互映射。然而標記器的訓練目標是從真實標記重建清晰圖像,而自迴歸生成器僅針對標記似然性進行優化。這種不對齊會導致生成的標記序列解碼成低品質圖像,且缺乏像素空間的直接監督。我們提出VA-π——一種輕量級訓練後優化框架,通過具理論依據的像素空間目標直接優化自迴歸模型。VA-π將生成器-標記器對齊問題構建為變分優化,推導出統一像素重建與自迴歸建模的證據下界。為在離散標記空間中實現優化,VA-π引入基於強化學習的對齊策略:將自迴歸生成器視為策略網絡,以像素空間重建品質作為內在獎勵。該獎勵通過教師強制模式下預測標記序列重建原圖像的準確度來衡量,無需耗時的自由運行採樣即可為模型提供像素級指導。證據下界中的正則化項作為自然約束器,維持標記的分佈一致性。VA-π無需重新訓練標記器或外部獎勵模型,即可快速適配現有自迴歸生成器。僅使用1% ImageNet-1K數據和25分鐘微調,即在LlamaGen-XXL上將FID從14.36降至7.65、IS從86.55提升至116.70;在GenEval文本生成圖像任務中,視覺生成模型(LlamaGen:從0.306升至0.339)與統一多模態模型(Janus-Pro:從0.725升至0.744)均獲得顯著提升。代碼已開源於https://github.com/Lil-Shake/VA-Pi。