每日精選AI研究論文及翻譯
本技術報告提出了一種成本效益高的策略,用於訓練視頻生成基礎模型。我們介紹了一個中等規模的研究模型,名為Seaweed-7B,該模型約有70億參數(7B),並從零開始訓練,使用了665,000個H100 GPU小時。儘管訓練時使用了適中的計算資源,Seaweed-7B在與當代更大規模的視頻生成模型相比時,展現出了極具競爭力的性能。在資源受限的環境中,設計選擇尤為關鍵。本技術報告強調了提升中等規模擴散模型性能的關鍵設計決策。根據實證研究,我們得出兩個觀察結果:(1)Seaweed-7B的表現可與使用更多GPU資源訓練的更大模型相媲美,甚至超越;(2)我們的模型展現出強大的泛化能力,能夠通過輕量級微調或繼續訓練,有效地適應廣泛的下游應用。詳見項目頁面:https://seaweed.video/。
在自回歸(AR)圖像生成中,視覺標記器將圖像壓縮為緊湊的離散潛在標記,從而通過下一個標記預測實現下游自回歸模型的高效訓練,用於視覺生成。雖然擴展視覺標記器能提升圖像重建質量,但這往往會降低下游生成質量——這一挑戰在現有文獻中尚未得到充分解決。為此,我們引入了GigaTok,這是首個在擴展視覺標記器時同時提升圖像重建、生成及表示學習的方法。我們發現潛在空間日益增長的複雜性是重建與生成困境背後的關鍵因素。為緩解這一問題,我們提出了語義正則化,它將標記器特徵與預訓練視覺編碼器的語義一致特徵對齊。這一約束在擴展過程中防止了潛在空間過度複雜化,從而在重建和下游自回歸生成兩方面均取得了持續改進。基於語義正則化,我們探索了擴展標記器的三項關鍵實踐:(1)使用一維標記器以獲得更好的可擴展性,(2)在同時擴展編碼器和解碼器時優先考慮解碼器擴展,以及(3)採用熵損失來穩定億級規模標記器的訓練。通過擴展至30億參數,GigaTok在重建、下游AR生成及下游AR表示質量上均達到了業界領先水平。
世界建模是使智能代理能夠有效與人類互動並在動態環境中運作的關鍵任務。在本研究中,我們提出了MineWorld,這是一個基於Minecraft的實時互動世界模型。Minecraft作為一個開放式沙盒遊戲,已被廣泛用作世界建模的通用測試平台。MineWorld由一個視覺-動作自回歸Transformer驅動,該模型以配對的遊戲場景和相應的動作為輸入,並根據這些動作生成後續的新場景。具體而言,通過使用圖像標記器和動作標記器分別將視覺遊戲場景和動作轉換為離散的標記ID,我們將這兩種ID交錯拼接以構成模型輸入。模型隨後通過下一個標記預測進行訓練,以同時學習遊戲狀態的豐富表示以及狀態與動作之間的條件關係。在推理階段,我們開發了一種新穎的並行解碼算法,該算法同時預測每幀中的空間冗餘標記,使得不同規模的模型每秒能夠生成4到7幀,從而實現與遊戲玩家的實時互動。在評估中,我們提出了新的指標,不僅評估視覺質量,還評估生成新場景時跟隨動作的能力,這對於世界模型至關重要。我們的全面評估顯示了MineWorld的有效性,顯著超越了基於擴散的最先進開源世界模型。代碼和模型已公開發布。
近期,DeepSeek R1 展示了强化学习(RL)如何通过一种简单而有效的设计显著提升大型语言模型(LLM)的推理能力。R1 的核心在于其基于规则的奖励机制,该机制利用具有确定性正确答案的任务,实现了精确且稳定的奖励计算。在视觉领域,我们同样观察到,广泛的视觉理解任务天生具备明确的真实标注。这一特性使得它们与基于规则的奖励机制天然兼容。受此启发,我们探索将 R1 风格的强化学习扩展至视觉语言模型(VLM),旨在增强其视觉推理能力。为此,我们开发了 VLM-R1,这是一个专门设计的框架,旨在利用强化学习提升 VLM 在通用视觉语言任务上的表现。通过这一框架,我们进一步探讨了将强化学习应用于视觉领域的可行性。实验结果表明,基于强化学习的模型不仅在视觉理解任务上表现出色,而且在泛化能力上超越了监督微调(SFT)。此外,我们进行了全面的消融研究,揭示了一系列值得注意的发现,包括目标检测中的奖励欺骗现象、“OD 顿悟时刻”的出现、训练数据质量的影响,以及强化学习在不同模型规模下的扩展行为。通过这些分析,我们旨在深化对强化学习如何增强视觉语言模型能力的理解,并希望我们的发现和开源贡献能够支持视觉语言强化学习社区的持续进步。我们的代码和模型可在 https://github.com/om-ai-lab/VLM-R1 获取。
自然語言轉SQL(NL2SQL)技術通過將自然語言查詢轉化為結構化的SQL語句,實現了與數據庫的直觀交互。儘管近年來在增強數據庫應用中的人機交互方面取得了進展,但在涉及多表連接和嵌套查詢的複雜場景中,推理性能仍面臨重大挑戰。現有方法主要依賴於監督微調(SFT)來訓練NL2SQL模型,這可能限制模型在新環境(如金融和醫療領域)中的適應性和可解釋性。為提升NL2SQL模型在上述複雜情境下的推理性能,我們引入了SQL-R1,這是一種基於強化學習(RL)算法訓練的新型NL2SQL推理模型。我們設計了專門針對NL2SQL任務的RL獎勵函數,並探討了冷啟動對密集訓練效果的影響。此外,我們僅使用少量合成的NL2SQL數據進行增強訓練,便達到了具有競爭力的準確率,並進一步探索了RL的數據工程。在現有實驗中,SQL-R1僅使用7B基礎模型,在基準測試Spider和BIRD上分別實現了88.6%和66.6%的執行準確率。
近期生成模型的進展顯著提升了圖像修復能力,尤其是通過強大的擴散模型,這些模型在語意細節和局部保真度的恢復上表現出色。然而,在超高分辨率下部署這些模型面臨著質量與效率之間的關鍵權衡,這是由於長程注意力機制的計算需求所致。為解決這一問題,我們引入了ZipIR,這是一個新穎的框架,旨在提升高分辨率圖像修復的效率、可擴展性及長程建模能力。ZipIR採用了一種高度壓縮的潛在表示,將圖像壓縮32倍,有效減少了空間標記的數量,並使得如擴散變壓器(DiT)等高容量模型的使用成為可能。為實現這一目標,我們提出了一種潛在金字塔變分自編碼器(LP-VAE)設計,該設計將潛在空間結構化為子帶,以簡化擴散訓練。ZipIR在最高2K分辨率的完整圖像上進行訓練,超越了現有的基於擴散的方法,在從嚴重退化的輸入中恢復高分辨率圖像時,提供了無與倫比的速度和質量。
我們提出了PixelFlow,這是一系列直接在原始像素空間運作的圖像生成模型,與主流的潛在空間模型形成對比。此方法通過省去預訓練變分自編碼器(VAE)的需求,並使整個模型可端到端訓練,從而簡化了圖像生成過程。通過高效的級聯流建模,PixelFlow在像素空間中實現了可負擔的計算成本。在256×256 ImageNet類別條件圖像生成基準測試中,它取得了1.98的FID分數。定性文本到圖像的結果顯示,PixelFlow在圖像質量、藝術性和語義控制方面表現卓越。我們希望這一新範式能激發並為下一代視覺生成模型開闢新的機遇。代碼和模型可在https://github.com/ShoufaChen/PixelFlow獲取。
隨著二維生成模型的快速發展,如何在實現多樣化編輯的同時保持主體身份,已成為一個關鍵的研究焦點。現有方法通常面臨身份保持與個性化操控之間的固有權衡。我們提出了FlexIP,這是一種新穎的框架,通過兩個專用組件來解耦這些目標:用於風格操控的個性化適配器和用於身份維護的保持適配器。通過將這兩種控制機制顯式注入生成模型,我們的框架能夠在推理過程中通過動態調節權重適配器來實現靈活的參數化控制。實驗結果表明,我們的方法突破了傳統方法的性能限制,在支持更豐富的個性化生成能力的同時,實現了更優越的身份保持效果(項目頁面:https://flexip-tech.github.io/flexip/)。
我們提出了一個利用多模態大語言模型(MLLMs)來分析包含數千萬張不同時間拍攝圖像的大型數據庫的系統,旨在發現時間變化中的模式。具體而言,我們的目標是捕捉城市在特定時期內頻繁共現的變化(“趨勢”)。與以往的視覺分析不同,我們的分析能夠回答開放式查詢(例如,“城市中常見的變化類型有哪些?”),而無需任何預先確定的目標對象或訓練標籤。這些特性使得先前的基於學習或無監督的視覺分析工具不再適用。我們將MLLMs視為一種新工具,因其具備開放式語義理解能力。然而,我們的數據集規模對於MLLM作為上下文輸入來說過於龐大,超出了四個數量級。因此,我們引入了一種自下而上的方法,將大規模視覺分析問題分解為更易處理的子問題。我們精心設計了基於MLLM的解決方案來應對每個子問題。在系統的實驗和消融研究中,我們發現其顯著優於基線方法,並能夠從大城市拍攝的圖像中發現有趣的趨勢(例如,“戶外用餐的增加”、“天橋被漆成藍色”等)。更多結果和互動演示請訪問https://boyangdeng.com/visual-chronicles。
我們提出了一個新問題——In-2-4D,旨在從極簡的輸入設置中生成四維(即三維加運動)的插幀效果:僅需兩張單視圖圖像,捕捉物體在兩個不同運動狀態下的瞬間。給定代表物體運動起止狀態的兩張圖像,我們的目標是生成並重建其四維運動軌跡。我們利用視頻插值模型來預測運動,但幀間的大幅度運動可能導致解釋上的模糊性。為此,我們採用分層方法,識別出視覺上接近輸入狀態且展現顯著運動的關鍵幀,然後在這些關鍵幀之間生成平滑的片段。對於每個片段,我們使用高斯潑濺技術構建關鍵幀的三維表示。片段內的時序幀引導運動,通過變形場將其轉化為動態高斯分佈。為了提升時間一致性並精煉三維運動,我們擴展了多視角擴散模型在時間步上的自注意力機制,並應用剛體變換正則化。最後,我們通過插值邊界變形場並優化其與引導視頻的對齊,合併獨立生成的三維運動片段,確保過渡平滑無閃爍。通過大量的定性定量實驗及用戶研究,我們展示了該方法及其各組成部分的有效性。項目頁面可訪問:https://in-2-4d.github.io/。
儘管大型語言模型(LLMs)在基準測試中得分很高,卻常常無法解決簡單問題,這引發了一個關鍵疑問:LLMs 是否真正學習了數學原理,還是僅僅記住了模式?與近期研究設計日益複雜的基準測試不同,我們通過基礎的兩位整數加法(0 到 2^{64})來探究這一問題,重點考察兩個核心特性:交換律(A+B=B+A)和組合泛化能力(通過同構符號映射,例如 7 → y)。雖然最先進的 LLMs 在數值加法上達到了 73.8-99.8% 的準確率,但在符號映射下的表現卻驟降至 ≤7.5%,表明其未能泛化所學規則。隨著位數增加而出現的非單調性能擴展,以及頻繁的交換律違反(超過 1,700 例 A+B ≠ B+A),進一步支持了這一結論。明確提供加法規則會使性能平均下降 81.2%,而自我解釋則保持了基準準確率,這表明 LLM 的算術處理與人類定義的原則存在偏差。我們的研究結果表明,當前 LLMs 依賴於記憶模式而非真正的規則學習,突顯了其架構上的局限性,並強調了需要新方法來實現真正的數學推理。
如DeBERTaV3和ModernBERT等預訓練的Transformer編碼器模型,引入了旨在提升效率和性能的架構創新。儘管ModernBERT的作者報告了在多個基準測試上相較DeBERTaV3的性能提升,但由於未公開訓練數據且缺乏基於共享數據集的比較,難以確定這些增益是源於架構改進還是訓練數據的差異。在本研究中,我們通過在與CamemBERTaV2(一個DeBERTaV3的法語模型)相同的數據集上預訓練ModernBERT,進行了一項對照實驗,以隔離模型設計的影響。我們的結果表明,上一代模型在樣本效率和整體基準性能上仍保持優勢,而ModernBERT的主要優勢在於更快的訓練和推理速度。然而,與BERT和RoBERTa等早期模型相比,新提出的模型仍提供了有意義的架構改進。此外,我們觀察到高質量的預訓練數據加速了收斂,但並未顯著提升最終性能,這暗示了基準測試可能已趨於飽和。這些發現凸顯了在評估Transformer模型時,將預訓練數據與架構創新分離的重要性。
檢索增強生成(RAG)模型在知識密集型任務中表現卓越,尤其是在少樣本學習的限制下。我們介紹了CoRAG,這是一個將RAG擴展到協作環境的框架,其中客戶端通過協作段落存儲共同訓練一個共享模型。為了評估CoRAG,我們引入了CRAB,這是一個用於協作同質開放域問答的基準。我們的實驗表明,在資源匱乏的情況下,CoRAG始終優於參數化協作學習方法和本地訓練的RAG模型。進一步的分析揭示了共享存儲中相關段落的關鍵重要性、引入不相關段落的意外益處,以及硬負樣本可能對性能產生的負面影響。這在協作RAG中引入了一個新的考量:利用集體豐富的知識庫與可能引入來自其他客戶端的有害段落之間的權衡。我們的研究結果強調了CoRAG的可行性,同時也指出了關鍵的設計挑戰和未來研究的有望方向。
近期,文本到視頻(T2V)擴散模型的進展顯著提升了生成視頻的視覺質量。然而,即便是最新的T2V模型,在精確遵循文本描述方面仍面臨挑戰,尤其是在提示需要精確控制空間佈局或物體軌跡時。最近的一項研究利用佈局指導來改進T2V模型,這需要在推理時進行微調或對注意力圖進行迭代操作,這大大增加了內存需求,使得難以採用大型T2V模型作為骨幹。為解決這一問題,我們引入了Video-MSG,這是一種基於多模態規劃和結構化噪聲初始化的無需訓練的T2V生成指導方法。Video-MSG包含三個步驟,在前兩個步驟中,Video-MSG創建視頻草圖,這是一個細粒度的時空計劃,用於指定背景、前景和物體軌跡,並以草稿視頻幀的形式呈現。在最後一步中,Video-MSG通過噪聲反轉和去噪,利用視頻草圖指導下游的T2V擴散模型。值得注意的是,Video-MSG在推理時無需微調或進行額外的注意力操作,從而更容易採用大型T2V模型。Video-MSG在多個T2V骨幹模型(VideoCrafter2和CogVideoX-5B)上,在流行的T2V生成基準(T2VCompBench和VBench)上展示了其在增強文本對齊方面的有效性。我們提供了關於噪聲反轉比例、不同背景生成器、背景物體檢測和前景物體分割的全面消融研究。
在醫學影像領域,主要挑戰在於由於隱私問題、物流成本以及高昂的標註費用,難以收集大規模的標註數據。在本研究中,我們推出了UK Biobank器官與骨骼(UKBOB)數據集,這是迄今為止最大的身體器官標註數據集,包含51,761個MRI三維樣本(相當於1,790萬張二維圖像)以及超過13.7億個72個器官的二維分割掩碼,所有數據均基於UK Biobank的MRI數據集。我們採用自動標註技術,引入了一套帶有器官特定濾波器的自動標籤清洗流程,並對300個MRI樣本進行了手動標註,涵蓋11個腹部類別,以驗證數據質量(稱為UKBOB-manual)。這一方法不僅實現了數據集規模的擴展,同時確保了標籤的可靠性。我們進一步通過展示訓練模型在過濾後的UKBOB數據集上對其他相似領域(如腹部MRI)小規模標註數據集的零樣本泛化能力,證實了標籤的有效性。為進一步減輕噪聲標籤的影響,我們提出了一種名為熵測試時適應(ETTA)的新方法,用於細化分割輸出。我們利用UKBOB數據集訓練了一個基於Swin-UNetr架構的基礎模型——Swin-BOB,用於三維醫學影像分割,在多個三維醫學影像基準測試中取得了領先成果,包括BRATS腦部MRI腫瘤挑戰賽(提升0.4%)和BTCV腹部CT掃描基準測試(提升1.3%)。預訓練模型及代碼可在https://emmanuelleb985.github.io/ukbob 獲取,過濾後的標籤將隨UK Biobank數據集一同公開。
3D圖形編輯在電影製作和遊戲設計等應用中至關重要,但這仍然是一個耗時且需要高度專業領域知識的過程。自動化這一過程具有挑戰性,因為圖形編輯需要執行多種任務,每種任務都需要不同的技能組合。最近,視覺語言模型(VLMs)已成為自動化編輯過程的強大框架,但其開發和評估因缺乏一個需要人類水平感知並呈現真實世界編輯複雜性的全面基準而受到限制。在本研究中,我們提出了BlenderGym,這是首個用於3D圖形編輯的全面VLM系統基準。BlenderGym通過基於代碼的3D重建任務來評估VLM系統。我們評估了閉源和開源的VLM系統,並觀察到即使是最先進的VLM系統在對人類Blender用戶相對容易的任務上也表現不佳。借助BlenderGym,我們研究了推理擴展技術如何影響VLM在圖形編輯任務上的表現。值得注意的是,我們的研究結果表明,用於指導生成擴展的驗證器本身可以通過推理擴展來改進,這補充了最近關於LLM生成在編碼和數學任務中推理擴展的見解。我們進一步表明,推理計算並非均勻有效,可以通過在生成和驗證之間策略性地分配來優化。
本研究提出了潛在擴散自編碼器(Latent Diffusion Autoencoder, LDAE),這是一種新穎的基於擴散過程的編碼-解碼框架,專為醫學影像中的高效且有意義的無監督學習而設計,並以阿爾茨海默病(AD)為例,利用來自ADNI數據庫的腦部磁共振影像進行案例研究。與傳統在影像空間運作的擴散自編碼器不同,LDAE將擴散過程應用於壓縮後的潛在表示中,從而提升計算效率,使三維醫學影像的表示學習變得可行。為驗證所提方法,我們探討了兩個關鍵假設:(i) LDAE能有效捕捉與AD及老化相關的三維腦部磁共振影像中的有意義語義表示;(ii) LDAE在保持計算效率的同時,能實現高質量的影像生成與重建。實驗結果支持了這兩項假設:(i) 線性探針評估顯示出對AD診斷(ROC-AUC:90%,ACC:84%)及年齡預測(MAE:4.1年,RMSE:5.2年)的優異性能;(ii) 學習到的語義表示支持屬性操控,產生解剖學上合理的修改;(iii) 語義插值實驗展示了對缺失掃描的強重建能力,對於6個月間隔的掃描,SSIM達0.969(MSE:0.0019)。即使對於更長的間隔(24個月),模型仍保持穩健性能(SSIM > 0.93,MSE < 0.004),表明其能捕捉時間進展趨勢;(iv) 與傳統擴散自編碼器相比,LDAE顯著提升了推理吞吐量(快20倍),同時也提高了重建質量。這些發現使LDAE成為可擴展醫學影像應用的有前景框架,並有潛力作為醫學影像分析的基礎模型。代碼可於https://github.com/GabrieleLozupone/LDAE獲取。
近期,推理時計算的進展顯著提升了在複雜任務上的表現,這主要得益於使用大型推理模型(LRMs)生成長鏈的思維鏈(CoTs)。然而,這種準確性的提升伴隨著高推理延遲的代價,這是由於生成的推理序列長度以及解碼的自回歸特性所致。我們在應對這些開銷的關鍵洞察是,LRM推理及其所嵌入的推理過程對近似具有高度容忍性:複雜任務通常被分解為更簡單的步驟,每一步的效用基於其為後續步驟提供的語義洞察,而非其生成的確切詞元。據此,我們引入了SpecReason系統,該系統通過使用輕量級模型(推測性地)執行較簡單的中間推理步驟,並保留昂貴的基礎模型僅用於評估(並可能修正)推測的輸出,從而自動加速LRM推理。重要的是,SpecReason著眼於利用思維詞元在保持最終答案準確性方面的語義靈活性,這與先前的推測技術(尤其是要求每一步詞元級等價的推測解碼)形成互補。在多種推理基準測試中,SpecReason相比於標準的LRM推理實現了1.5至2.5倍的加速,同時將準確性提高了1.0%至9.9%。與未結合SpecReason的推測解碼相比,二者的結合進一步帶來了19.4%至44.2%的延遲降低。我們已在https://github.com/ruipeterpan/specreason開源了SpecReason。
我們提出了InteractVLM,這是一種新穎的方法,能夠從單張野外拍攝的圖像中估計人體與物體的三維接觸點,從而實現精確的人體與物體三維聯合重建。這項任務面臨著遮擋、深度模糊以及物體形狀多樣性等挑戰。現有方法依賴於通過昂貴的動作捕捉系統或繁瑣的手動標註收集的三維接觸數據,這限制了其可擴展性和泛化能力。為克服這些限制,InteractVLM利用了大型視覺-語言模型(VLMs)的廣泛視覺知識,並通過有限的三維接觸數據進行微調。然而,直接應用這些模型並非易事,因為它們僅在二維空間中進行推理,而人體與物體的接觸本質上是三維的。因此,我們引入了一個新穎的渲染-定位-提升模塊,該模塊:(1)通過多視角渲染將三維人體和物體表面嵌入二維空間,(2)訓練一個新穎的多視角定位模型(MV-Loc)來推斷二維接觸點,(3)將這些接觸點提升到三維空間。此外,我們提出了一項名為語義人體接觸估計的新任務,其中人體接觸預測明確地以物體語義為條件,從而實現更豐富的交互建模。InteractVLM在接觸估計方面超越了現有工作,並促進了從野外圖像進行三維重建的能力。代碼和模型可在https://interactvlm.is.tue.mpg.de獲取。
機器遺忘是一種提升大型語言模型安全性的有前景方法,旨在從模型中移除不需要的知識。然而,現有的基於梯度的遺忘方法存在諸多問題,如高計算成本、超參數不穩定、序列遺忘能力差、易受重新學習攻擊、數據效率低以及缺乏可解釋性。雖然稀疏自編碼器(Sparse Autoencoders, SAEs)通過實現基於激活的定向遺忘,能夠有效改善這些方面,但先前的方法在性能上遜色於基於梯度的方法。本研究證明,與早期發現相反,當動態使用時,SAEs能顯著提升遺忘效果。我們提出了動態DAE防護欄(Dynamic DAE Guardrails, DSG),這是一種利用原則性特徵選擇和動態分類器的新型精確遺忘方法。實驗結果顯示,DSG在遺忘與效用之間的權衡上大幅領先於主流遺忘方法,顯著優化了遺忘效果。DSG解決了基於梯度遺忘方法的關鍵缺陷——提供了更高的計算效率和穩定性、在序列遺忘中的強健表現、對重新學習攻擊的更強抵抗力、包括零樣本設置在內的更好數據效率,以及更為可解釋的遺忘過程。