每日精選AI研究論文及翻譯
統一圖像理解與生成在近年多模態模型研究中日益受到關注。儘管圖像理解的設計選擇已得到廣泛研究,但在統一框架下結合圖像生成的最佳模型架構與訓練方案仍待深入探索。基於自迴歸模型和擴散模型在高質量生成與可擴展性方面的強大潛力,我們對其在統一多模態設置中的應用進行了全面研究,重點關注圖像表示、建模目標和訓練策略。基於這些研究,我們提出了一種新方法,採用擴散變壓器生成語義豐富的CLIP圖像特徵,與傳統基於VAE的表示形成對比。這一設計既提高了訓練效率,又提升了生成質量。此外,我們證明,對於統一模型採用分階段預訓練策略——先進行圖像理解訓練,再進行圖像生成訓練——能夠在保持圖像理解能力的同時,培養強大的圖像生成能力,具有實際優勢。最後,我們精心策劃了一個高質量的指令微調數據集BLIP3o-60k,用於圖像生成,通過向GPT-4o提供涵蓋多樣場景、物體、人類手勢等的多樣化標題來生成數據。基於我們創新的模型設計、訓練方案和數據集,我們開發了BLIP3-o,一套領先的統一多模態模型。BLIP3-o在涵蓋圖像理解與生成任務的眾多流行基準測試中均表現出色。為促進未來研究,我們完全開源了我們的模型,包括代碼、模型權重、訓練腳本,以及預訓練和指令微調數據集。
大型語言模型(LLMs)的快速擴展揭示了當前硬體架構的關鍵限制,包括記憶體容量、計算效率和互連頻寬的約束。DeepSeek-V3在2,048個NVIDIA H800 GPU上進行訓練,展示了硬體感知的模型協同設計如何有效應對這些挑戰,實現大規模的成本效益訓練和推理。本文深入分析了DeepSeek-V3/R1模型架構及其AI基礎設施,重點介紹了多頭潛在注意力(MLA)以提升記憶體效率、專家混合(MoE)架構以優化計算與通信的權衡、FP8混合精度訓練以充分發揮硬體潛力,以及多平面網路拓撲以最小化集群級網路開銷等關鍵創新。基於DeepSeek-V3開發過程中遇到的硬體瓶頸,我們與學術界和產業界的同行展開了更廣泛的討論,探討了未來硬體的潛在方向,包括精確的低精度計算單元、規模擴展與分散式收斂,以及低延遲通信結構的創新。這些見解強調了硬體與模型協同設計在滿足AI工作負載日益增長需求中的關鍵作用,為下一代AI系統的創新提供了實用的藍圖。
廣泛用於訓練大型多模態模型的自然語言圖像描述數據集,主要聚焦於自然場景,而忽視了數學圖像中對解題至關重要的複雜細節,這阻礙了當前多模態模型在多模態數學推理方面的進展。為此,我們提出利用代碼作為跨模態對齊的監督信號,因為代碼內在地編碼了生成相應圖像所需的所有信息,從而建立了兩種模態之間的精確聯繫。具體而言,我們採用模型在環路的方法共同開發了圖像到代碼的模型和數據集,最終得到了圖像到代碼模型FigCodifier以及迄今為止最大的圖像-代碼數據集ImgCode-8.6M。此外,我們利用FigCodifier合成了新的數學圖像,並構建了高質量的多模態數學指令微調數據集MM-MathInstruct-3M。最後,我們展示了MathCoder-VL,該模型首先使用ImgCode-8.6M進行跨模態對齊訓練,隨後在MM-MathInstruct-3M上進行微調以解決多模態數學問題。我們的模型在所有六項指標上均達到了開源領域的新SOTA水平。值得注意的是,在MathVista的幾何問題解決子集中,它超越了GPT-4o和Claude 3.5 Sonnet,分別實現了8.9%和9.2%的提升。數據集和模型將在https://github.com/mathllm/MathCoder上發布。
密集視覺預測任務一直受限於其對預定義類別的依賴,這限制了其在現實場景中的應用,因為現實中的視覺概念是無界的。儘管像CLIP這樣的視覺-語言模型(VLMs)在開放詞彙任務中展現了潛力,但將其直接應用於密集預測時,由於局部特徵表示的限制,往往導致性能不佳。在本研究中,我們觀察到CLIP的圖像標記難以有效聚合來自空間或語義相關區域的信息,從而產生的特徵缺乏局部區分性和空間一致性。為解決這一問題,我們提出了DeCLIP,這是一個新穎的框架,通過解耦自注意力模塊來分別獲取「內容」和「上下文」特徵,從而增強CLIP。「內容」特徵與圖像裁剪表示對齊,以提高局部區分性,而「上下文」特徵則在視覺基礎模型(如DINO)的指導下學習保留空間相關性。大量實驗表明,DeCLIP在多個開放詞彙密集預測任務(包括目標檢測和語義分割)中顯著優於現有方法。代碼可在magenta{https://github.com/xiaomoguhz/DeCLIP}獲取。
我們提出了一種基於擴散模型的簡單而有效的方法,用於對圖像中的光源進行細粒度、參數化的控制。現有的重光照方法要么依賴於多個輸入視圖在推理時進行逆向渲染,要么無法提供對光照變化的顯式控制。我們的方法在少量真實原始照片對上微調擴散模型,並輔以大規模的合成渲染圖像,以激發其用於重光照的逼真先驗。我們利用光的線性特性來合成描繪目標光源或環境光照受控變化的圖像對。使用這些數據和適當的微調方案,我們訓練了一個模型,能夠實現精確的光照變化,並對光強度和顏色進行顯式控制。最後,我們展示了我們的方法如何實現引人注目的光照編輯效果,並在用戶偏好方面優於現有方法。
過去十年間,深度學習在電腦視覺領域的成功,主要依賴於大規模標註數據集和強大的預訓練模型。在數據稀缺的環境中,這些預訓練模型的品質對於有效的遷移學習至關重要。傳統上,圖像分類和自監督學習一直是預訓練卷積神經網絡(CNN)和基於Transformer架構的主要方法。最近,文本到圖像生成模型的興起,尤其是那些在潛在空間中使用去噪擴散技術的模型,引入了一類新的基礎模型,這些模型在大量帶有標題的圖像數據集上進行訓練。這些模型能夠生成未見過內容的真實圖像,表明它們對視覺世界具有深刻的理解。在本研究中,我們提出了Marigold,這是一系列條件生成模型及微調協議,旨在從如Stable Diffusion等預訓練的潛在擴散模型中提取知識,並將其適應於密集圖像分析任務,包括單目深度估計、表面法線預測和本質分解。Marigold僅需對預訓練潛在擴散模型的架構進行最小程度的修改,使用小型合成數據集在單個GPU上訓練數天,並展示了最先進的零樣本泛化能力。項目頁面:https://marigoldcomputervision.github.io
模仿是人類的一項基本學習機制,使個體能夠通過觀察和模仿專家來學習新任務。然而,將這種能力應用於機器人卻面臨著重大挑戰,這主要是由於人類與機器人在視覺外觀和物理能力上的本質差異。雖然先前的方法通過使用共享場景和任務的跨實體數據集來彌合這一差距,但大規模收集人類與機器人之間對齊的數據並非易事。在本文中,我們提出了UniSkill,這是一種新穎的框架,它能夠從大規模的跨實體視頻數據中學習到與實體無關的技能表示,而無需任何標籤,從而使得從人類視頻提示中提取的技能能夠有效地轉移到僅基於機器人數據訓練的策略上。我們在模擬和真實環境中的實驗表明,我們的跨實體技能成功地指導機器人選擇適當的動作,即使面對未見過的視頻提示也是如此。項目網站可訪問:https://kimhanjung.github.io/UniSkill。
從單一RGB圖像中恢復高品質的3D場景是計算機圖形學中的一項挑戰性任務。現有方法往往受制於特定領域的限制或生成物件的品質不佳。為解決這些問題,我們提出了CAST(基於單一RGB圖像的組件對齊3D場景重建),這是一種新穎的3D場景重建與恢復方法。CAST首先從輸入圖像中提取物件級的2D分割和相對深度信息,隨後利用基於GPT的模型分析物件間的空間關係,從而理解場景中物件如何相互關聯,確保重建的連貫性。接著,CAST採用一個遮擋感知的大規模3D生成模型,獨立生成每個物件的完整幾何形狀,並使用MAE和點雲條件來減輕遮擋和部分物件信息的影響,確保與源圖像的幾何和紋理精確對齊。為了將每個物件與場景對齊,對齊生成模型計算必要的變換,使生成的網格能夠精確放置並整合到場景的點雲中。最後,CAST引入了一個物理感知的校正步驟,利用細粒度關係圖生成約束圖,該圖指導物件姿態的優化,確保物理一致性和空間連貫性。通過使用有向距離場(SDF),模型有效解決了遮擋、物件穿透和懸浮物件等問題,確保生成的場景準確反映現實世界的物理交互。CAST可應用於機器人技術,實現高效的實物到模擬工作流程,並為機器人系統提供真實、可擴展的模擬環境。
如GPT-4o-audio等端到端語音對話模型近期在語音領域引起了廣泛關注。然而,對於語音對話模型會話表現的評估卻在很大程度上被忽視了。這主要是因為智能聊天機器人傳達了大量非文本信息,這些信息無法輕易通過像ChatGPT這樣的基於文本的語言模型來衡量。為填補這一空白,我們提出了WavReward,這是一個基於音頻語言模型的獎勵反饋模型,能夠通過語音輸入評估語音對話系統的智商(IQ)和情商(EQ)。具體而言,1)基於音頻語言模型,WavReward整合了深度推理過程和非線性獎勵機制進行後訓練。通過利用強化學習算法的多樣本反饋,我們構建了一個專為語音對話模型量身定制的評估器。2)我們引入了ChatReward-30K,這是一個用於訓練WavReward的偏好數據集。ChatReward-30K涵蓋了語音對話模型的理解與生成兩個方面,這些場景跨越了多種任務,如基於文本的聊天、指令聊天的九種聲學屬性以及隱含聊天。在多種語音對話場景中,WavReward均超越了先前最先進的評估模型,在客觀準確性上相較於Qwen2.5-Omni實現了從55.1%到91.5%的顯著提升。在主觀A/B測試中,WavReward也以83%的優勢領先。全面的消融研究證實了WavReward各組件的必要性。所有數據和代碼將在論文被接受後公開於https://github.com/jishengpeng/WavReward。
我們提出了Omni-R1,該模型基於最新的多模態大語言模型Qwen2.5-Omni,在音頻問答數據集上採用強化學習方法GRPO進行微調。這使得該模型在最新的MMAU基準測試中達到了新的最佳性能。Omni-R1在聲音、音樂、語音及整體平均類別上,無論是在Test-mini還是Test-full劃分中,均取得了最高的準確率。為了理解性能提升的原因,我們測試了包含與不包含音頻的模型,發現GRPO帶來的性能提升很大程度上可歸因於基於文本的推理能力的增強。此外,我們還有一個意外的發現,即在僅包含文本的數據集上進行無音頻微調,對於提升基於音頻的性能同樣有效。
軟件問題定位,即識別與自然語言問題描述(如錯誤報告、功能請求)相關的精確代碼位置(文件、類或函數),是軟件開發中關鍵但耗時的環節。儘管近期基於大語言模型(LLM)的代理方法展現出潛力,但由於複雜的多步推理和依賴閉源LLM,它們往往帶來顯著的延遲和成本。另一方面,傳統的代碼排序模型通常針對查詢到代碼或代碼到代碼的檢索進行優化,卻難以應對問題定位查詢的冗長和故障描述特性。為彌合這一差距,我們引入了SweRank,一個高效且有效的檢索與重排序框架,專為軟件問題定位設計。為促進訓練,我們構建了SweLoc,這是一個從公開GitHub倉庫中精心挑選的大規模數據集,包含真實世界的問題描述及其對應的代碼修改。在SWE-Bench-Lite和LocBench上的實驗結果表明,SweRank達到了最先進的性能,超越了先前的排序模型以及使用閉源LLM(如Claude-3.5)的高成本代理系統。此外,我們展示了SweLoc在提升現有各種檢索器和重排序模型用於問題定位方面的實用性,確立了該數據集作為社區寶貴資源的地位。
儘管近期在視頻理解領域取得了進展,大型視頻語言模型(LVLMs)在執行基於視頻的因果推理方面的能力仍未被充分探索,這主要歸因於缺乏相關且專用的基準來評估視覺基礎和目標驅動設置中的因果推理。為填補這一空白,我們引入了一個名為基於視頻的長篇因果推理(VCRBench)的新基準。我們利用日常簡單活動的程序性視頻創建了VCRBench,其中步驟被故意打亂,每個片段捕捉一個關鍵的因果事件,以測試LVLMs是否能夠識別、推理並正確排序實現特定目標所需的事件。此外,該基準經過精心設計,防止LVLMs利用多選或二進制問答格式中的語言捷徑,同時也避免了評估開放式問答所帶來的挑戰。我們在VCRBench上對最先進的LVLMs進行評估,結果表明這些模型在基於視頻的長篇因果推理方面存在困難,主要是由於它們難以直接從視覺觀察中建模長程因果依賴。作為實現此類能力的初步嘗試,我們提出了識別-推理分解(RRD),這是一種模塊化方法,將基於視頻的因果推理分解為視頻識別和因果推理兩個子任務。我們在VCRBench上的實驗表明,RRD顯著提高了VCRBench的準確率,增益高達25.2%。最後,我們的深入分析揭示了有趣的見解,例如,LVLMs在複雜的基於視頻的長篇因果推理任務中主要依賴於語言知識。
預訓練數據集是多模態模型發展的基石,然而這些數據集往往源自網絡規模的語料庫,存在固有的偏見和有害內容。本文探討了LLaVA圖像-文本預訓練數據集中有害內容的普遍性,分析了不同模態下有害內容的表現形式。我們對常見的有害內容類別進行了全面分析,並提出了針對性的緩解策略,從而創建了一個經過精煉的去有害化數據集。該數據集移除了LLaVA預訓練數據集中的7,531對有害圖像-文本對。我們提供了實施穩健有害內容檢測管道的指導原則。研究結果強調了積極識別和過濾有害內容(如仇恨言論、露骨圖像和針對性騷擾)的必要性,以構建更負責任和公平的多模態系統。去有害化數據集已開源,可供進一步研究使用。
人員重識別(ReID)技術在受控的地面條件下表現相對良好,但在實際應用於具有挑戰性的現實場景時卻往往失效。顯然,這是由於極端的數據變異因素,如分辨率、視角變化、尺度差異、遮擋以及服裝或時間漂移帶來的外觀變化。此外,公開可用的數據集並未真實地涵蓋這些類型和程度的變異性,這限制了該技術的進步。本文介紹了DetReIDX,一個大規模的空中-地面人員數據集,該數據集專門設計用於在現實條件下對ReID進行壓力測試。DetReIDX是一個多會話數據集,包含來自509個身份的超過1300萬個邊界框,數據收集自三大洲的七所大學校園,無人機飛行高度在5.8至120米之間。更重要的是,作為一個關鍵創新,DetReIDX中的對象在不同日期至少進行了兩次記錄,期間服裝、日光和地點均有所變化,使其真正適合評估長期人員重識別。此外,數據還標註了16個軟生物特徵屬性以及用於檢測、跟踪、重識別和動作識別的多任務標籤。為了提供DetReIDX實用性的實證證據,我們考慮了人體檢測和重識別這兩個具體任務,在DetReIDX的條件下,最先進的方法性能急劇下降(檢測準確率下降高達80%,Rank-1重識別率下降超過70%)。該數據集、註釋和官方評估協議可在https://www.it.ubi.pt/DetReIDX/公開獲取。
近年來,我們見證了大規模視覺-語言模型(VLMs)的快速發展。這些模型在學術基準測試中展現了令人印象深刻的成果,主要集中於廣泛使用的語言,但在低資源語言和多樣文化情境下的表現則有所不足。為解決這些限制,我們推出了Maya,一個開源的多語言視覺-語言模型。我們的主要貢獻包括:1)基於LLaVA預訓練數據集,構建了一個涵蓋八種語言的多語言圖像-文本預訓練數據集;以及2)支持這些語言的多語言圖像-文本模型,提升了視覺-語言任務中的文化與語言理解能力。代碼已開源於https://github.com/nahidalam/maya。
回答諸如「哪些紅色傢俱可用於坐著?」這類複雜的視覺問題,需要進行多步驟的推理,包括物體識別、屬性過濾和關係理解。近期研究通過將任務分解為子任務程序,提升了多模態大語言模型(MLLMs)的可解釋性,但這些方法因對目標數據適應性差而計算成本高且準確性較低。為解決這一問題,我們引入了VISTAR(視覺可解釋子任務感知推理模型),這是一個子任務驅動的訓練框架,通過在MLLMs內生成文本和視覺解釋,增強了可解釋性和推理能力。VISTAR不依賴外部模型,而是微調MLLMs以產生結構化的「子任務思維」推理序列(逐步推理過程)。在兩個基準測試上的實驗表明,VISTAR在保持可解釋性的同時,持續提升了推理準確性。我們的代碼和數據集將在https://github.com/ChengJade/VISTAR上公開。
三維高斯潑濺(3DGS)已成為實現實時、高分辨率新視角合成的強大技術。通過將場景表示為高斯基元的混合體,3DGS利用GPU光柵化管線進行高效的渲染與重建。為優化場景覆蓋並捕捉細微細節,3DGS採用了一種密集化算法來生成額外的點。然而,這一過程往往導致冗餘的點雲,造成過高的內存使用、性能下降及巨大的存儲需求,這對在資源受限設備上的部署構成了重大挑戰。為解決這一限制,我們提出了一個理論框架,旨在揭示並改進3DGS中的密度控制。我們的分析表明,分割對於逃離鞍點至關重要。通過優化理論的方法,我們確立了密集化的必要條件,確定了最小子代高斯數目,找出了最優參數更新方向,並提供了子代不透明度歸一化的解析解。基於這些洞見,我們引入了SteepGS,它融合了最陡密度控制,這是一種在保持點雲緊湊的同時最小化損失的原則性策略。SteepGS在不影響渲染質量的前提下,實現了高斯點數約50%的減少,顯著提升了效率與可擴展性。