每日精選AI研究論文及翻譯
在先進的多模型學習時代,多模式大型語言模型(MLLMs)如GPT-4V已經在語言和視覺元素之間取得了顯著進展。然而,封閉源代碼的特性和龐大的計算需求為其普遍使用和修改帶來了顯著挑戰。這就是開源MLLMs如LLaVA和MiniGPT-4的用武之地,它們在各項任務中取得了開創性的成就。儘管取得了這些成就,計算效率仍然是一個未解決的問題,因為這些模型,如LLaVA-v1.5-13B,需要大量資源。為了應對這些問題,我們引入了TinyGPT-V,這是一種新型模型,將出色的性能與普通的計算能力相結合。它的獨特之處在於僅需要一個24G GPU進行訓練,以及一個8G GPU或CPU進行推理。TinyGPT-V基於Phi-2構建,將具有高效語言骨幹的模型與來自BLIP-2或CLIP的預訓練視覺模塊相結合。TinyGPT-V的28億參數可以經歷獨特的量化過程,適用於本地部署和在各種8G設備上進行推理任務。我們的工作促進了進一步的發展,設計出成本效益高、高效且高性能的MLLMs,擴大了它們在各種現實場景中的應用。此外,本文提出了一種通過小型骨幹實現多模式大型語言模型的新範式。我們的代碼和訓練權重分別放在以下位置: https://github.com/DLYuanGod/TinyGPT-V 和 https://huggingface.co/Tyrannosaurus/TinyGPT-V。
我們提出了Unified-IO 2,這是第一個能夠理解和生成影像、文本、音訊和動作的自回歸多模態模型。為了統一不同的模態,我們將輸入和輸出(如影像、文本、音訊、動作、邊界框等)進行標記化,轉換為共享的語義空間,然後使用單一的編碼器-解碼器Transformer模型進行處理。由於使用如此多樣化的模態進行訓練具有挑戰性,我們提出了各種架構改進來穩定模型訓練。我們從頭開始在來自不同來源的大型多模態預訓練語料庫上訓練我們的模型,並使用多模態混合去噪目標。為了學習廣泛的技能,例如遵循多模態指令,我們構建並在包含提示和增強的120個數據集上進行微調。通過單一統一模型,Unified-IO 2在GRIT基準測試中實現了最先進的性能,在超過35個基準測試中取得了強大的結果,包括影像生成和理解、自然語言理解、視頻和音訊理解以及機器人操作。我們將所有模型釋放給研究社群。
高質量、大規模的語料庫是構建基礎模型的基石。在這項工作中,我們介紹了MathPile,這是一個包含約95億標記的多樣且高質量的數學中心語料庫。在創建過程中,我們堅持“少即是多”的原則,堅信在預訓練階段,數據質量高於數量的至高無上。我們的細緻數據收集和處理工作包括一套複雜的預處理、預過濾、語言識別、清理、過濾和去重,確保了我們語料庫的高質量。此外,我們對下游基準測試集進行了數據污染檢測,以消除重複數據。我們希望我們的MathPile能夠幫助提升語言模型的數學推理能力。我們計劃開源不同版本的MathPile,並提供用於處理的腳本,以促進該領域未來的發展。
我們提出了MobileVLM,這是一個針對在行動裝置上運行的多模式視覺語言模型(MMVLM)。它是許多針對行動裝置設計的架構設計和技術的結合,包括一組規模為1.4B和2.7B參數的語言模型,從頭開始訓練,以CLIP方式預先訓練的多模式視覺模型,以及通過高效投影機實現的跨模式交互。我們在幾個典型的VLM基準測試上評估了MobileVLM。我們的模型表現與一些更大的模型相當。更重要的是,我們在Qualcomm Snapdragon 888 CPU和NVIDIA Jeston Orin GPU上測量了推理速度,分別獲得了每秒21.5個標記和65.3個標記的最新性能。我們的程式碼將在以下網址提供:https://github.com/Meituan-AutoML/MobileVLM。
已經提出了幾種無監督圖像分割方法,無需密集手動標註的分割遮罩;目前的模型分別處理語義分割(例如,STEGO)或類別不可知實例分割(例如,CutLER),但不包括兩者(即,全景分割)。我們提出了一個無監督通用分割模型(U2Seg),能夠使用新穎的統一框架執行各種圖像分割任務 -- 包括實例、語義和全景分割。U2Seg通過利用自監督模型生成這些分割任務的虛擬語義標籤,然後進行聚類;每個聚類代表像素的不同語義和/或實例成員資格。然後,我們對這些虛擬語義標籤進行自我訓練,相對於針對每個任務量身定制的專門方法,取得了顯著的性能提升:在COCO上,無監督實例分割中相對於CutLER的+2.6 AP^{box}提升,無監督語義分割中相對於STEGO的+7.0 PixelAcc增加。此外,我們的方法為未曾探索的無監督全景分割設立了新的基準。U2Seg也是一個強大的預訓練模型,用於少樣本分割,在低數據情況下訓練時,例如僅使用1%的COCO標籤時,超越CutLER +5.0 AP^{mask}。我們希望我們簡單而有效的方法能激發更多關於無監督通用圖像分割的研究。
最近在4D內容生成方面取得了顯著進展。然而,現有方法存在優化時間長、運動可控性不足和細節水平低的問題。本文介紹了DreamGaussian4D,這是一個高效的4D生成框架,基於4D高斯Splatting表示法。我們的關鍵洞察是,在高斯Splatting中對空間變換進行明確建模,使其與隱式表示法相比更適合4D生成設置。DreamGaussian4D將優化時間從數小時縮短到幾分鐘,允許靈活控制生成的3D運動,並生成可在3D引擎中高效渲染的動畫網格。
我們目睹了基於深度學習的3D視覺方面取得了顯著進展,從基於神經輻射場(NeRF)的3D表示學習到應用於新視角合成(NVS)。然而,現有用於基於深度學習的3D視覺的場景級數據集,僅限於合成環境或狹窄選擇的現實場景,相當不足。這種不足不僅阻礙了對現有方法的全面評估,還限制了在基於深度學習的3D分析中可以探索的範圍。為了填補這一關鍵差距,我們提出了DL3DV-10K,一個大規模的場景數據集,包括來自65種感興趣點(POI)位置的10,510個視頻中的5120萬幀,涵蓋了有界和無界場景,具有不同水平的反射、透明度和照明。我們在DL3DV-10K上對最近的NVS方法進行了全面評估,揭示了未來NVS研究的寶貴見解。此外,我們在一項初步研究中從DL3DV-10K中學習到了可推廣的NeRF,這顯示了建立通往學習3D表示基礎模型的大規模場景級數據集的必要性。我們的DL3DV-10K數據集、評估結果和模型將在https://dl3dv-10k.github.io/DL3DV-10K/ 上公開提供。
NeRF 已顯著推進了 3D 場景重建,在各種環境中捕捉了精細的細節。現有方法已成功利用輻射場烘焙來促進對小型場景的實時渲染。然而,當應用於大型場景時,這些技術遇到了重大挑戰,由於計算、內存和帶寬等資源有限,難以提供無縫的實時體驗。在本文中,我們提出了 City-on-Web,通過將整個場景劃分為可管理的塊,每個塊都具有自己的細節級別,確保高保真度、高效的內存管理和快速渲染。同時,我們精心設計了訓練和推斷過程,使網絡上的最終渲染結果與訓練一致。由於我們的新型表示和精心設計的訓練/推斷過程,我們是第一個在資源受限環境中實現大型場景實時渲染的方法。大量實驗結果表明,我們的方法促進了在網絡平台上對大型場景的實時渲染,在 RTX 3060 GPU 上以 1080P 分辨率實現了 32FPS,同時實現了與最先進方法接近的質量。項目頁面:https://ustc3dv.github.io/City-on-Web/
在快速演進的數位內容生成領域中,焦點已從文本轉圖像(T2I)模型轉向更先進的視頻擴散模型,特別是文本轉視頻(T2V)和圖像轉視頻(I2V)。本文探討了I2V提出的複雜挑戰:將靜態圖像轉換為動態、逼真的視頻序列,同時保留原始圖像的保真度。傳統方法通常涉及將整個圖像集成到擴散過程中,或使用預訓練的編碼器進行交叉關注。然而,這些方法通常需要改變T2I模型的基本權重,從而限制了它們的可重用性。我們提出了一種新穎的解決方案,即I2V-Adapter,旨在克服這些限制。我們的方法保留了T2I模型及其固有運動模組的結構完整性。I2V-Adapter通過並行處理帶有噪聲的視頻幀和輸入圖像,利用輕量級的適配器模塊運作。該模塊充當橋樑,有效地將輸入與模型的自注意機制相連接,從而在不需要對T2I模型進行結構更改的情況下保持空間細節。此外,I2V-Adapter僅需要傳統模型的一小部分參數,並確保與現有社區驅動的T2I模型和控制工具兼容。我們的實驗結果展示了I2V-Adapter生成高質量視頻輸出的能力。這種性能,加上其多功能性和對可訓練參數需求的降低,代表了人工智慧驅動視頻生成領域的重大進步,特別是對於創意應用。
生成基於物理的角色動畫並實現直觀控制一直是一項令人嚮往且具有眾多應用的任務。然而,生成反映高層人類指令的物理模擬動畫仍然是一個困難問題,這是由於物理環境的複雜性和人類語言的豐富性所導致的。本文提出了InsActor,一個基於原則的生成框架,利用最近在擴散式人體運動模型方面的進展,來產生基於物理的角色的指令驅動動畫。我們的框架賦予InsActor捕捉高層人類指令與角色動作之間複雜關係的能力,通過使用擴散策略進行靈活條件化的運動規劃。為了克服計劃動作中的無效狀態和不可行的狀態轉換,InsActor發現低層技能,並將計劃映射到緊湊的潛在技能序列空間中。大量實驗表明,InsActor在各種任務上取得了最先進的成果,包括基於指令的運動生成和基於指令的航向路徑生成。值得注意的是,InsActor能夠使用高層人類指令生成物理模擬動畫,使其成為一個寶貴的工具,特別是在執行具有豐富指令集的長視程任務時。
動態場景的新視角合成一直是一個引人入勝但具挑戰性的問題。儘管近期取得了一些進展,但同時實現高分辨率的逼真結果、實時渲染和緊湊存儲仍然是一項艱巨的任務。為應對這些挑戰,我們提出了時空高斯特徵塗抹作為一種新穎的動態場景表示,由三個關鍵組成部分組成。首先,我們通過增強3D高斯模型的時間不透明度和參數化運動/旋轉來制定具有表現力的時空高斯模型。這使得時空高斯模型能夠捕捉場景中的靜態、動態以及瞬態內容。其次,我們引入了特徵塗抹渲染,用神經特徵取代球面調和。這些特徵有助於建模視角和時間依賴性外觀,同時保持較小的尺寸。第三,我們利用訓練誤差和粗深度的指導,在現有管線難以收斂的區域採樣新的高斯模型。對幾個已建立的真實世界數據集進行的實驗表明,我們的方法實現了最先進的渲染質量和速度,同時保持緊湊的存儲。在8K分辨率下,我們的精簡版模型可以在Nvidia RTX 4090 GPU上以60 FPS進行渲染。
最先進的語言模型為了在大量可用文本數據庫上取得最佳性能,正變得越來越龐大。然而,Transformer 結構的巨大規模使得在計算、環境或設備特定限制內部署模型變得困難。我們探索利用數據驅動的壓縮現有預訓練模型作為訓練較小模型的替代方法。為此,我們將目標損失地形的 Kronecker 分解曲率近似擴展到大型語言模型。通過這樣做,我們可以計算可以移除的結構的動態分配,以及考慮到這種移除的剩餘權重的更新。我們提供了一個通用框架,用於非結構化、半結構化和結構化剪枝,並改進了權重更新以捕捉更多權重之間的相關性,同時保持計算效率。在實驗中,我們的方法可以對一系列 OPT 模型和 Llamav2-7B 進行 20%-30% 的行和列剪枝,性能幾乎沒有損失,並在大型語言模型的非結構化和半結構化剪枝方面取得了最先進的結果。
從單一視角解決影像到3D的問題是一個不透徹的問題,目前的神經重建方法通過擴散模型來處理,仍然依賴特定場景的優化,限制了它們的泛化能力。為了克服現有方法在泛化和一致性方面的限制,我們引入了一種新穎的神經渲染技術。我們的方法採用符號距離函數作為表面表示,並通過幾何編碼體積和超網絡來整合通用先驗。具體而言,我們的方法從生成的多視角輸入中構建神經編碼體積。我們在測試時根據輸入圖像調整SDF網絡的權重,以允許模型通過超網絡以前馳的方式適應新的場景。為了減輕從合成視圖中產生的瑕疵,我們提出使用體積轉換器模塊來改善圖像特徵的聚合,而不是分別處理每個視角。通過我們提出的方法,被稱為Hyper-VolTran,我們避免了特定場景優化的瓶頸,並保持了從多個視角生成的圖像的一致性。我們的實驗顯示了我們提出的方法的優勢,具有一致的結果和快速生成。
神經圖形基元在其神經網絡被空間數據結構增強時,速度更快且品質更高。這些空間數據結構包含以網格排列的可訓練特徵。然而,現有的特徵網格要麼佔用大量內存(密集或分解網格、樹狀結構和哈希表),要麼性能較慢(索引學習和向量量化)。本文展示了通過具有學習探針的哈希表,既沒有這些缺點,又實現了大小和速度的有利組合。在相同品質下,推理速度比未經探測的哈希表更快,而訓練速度僅慢1.2-2.6倍,明顯優於先前的索引學習方法。我們通過將所有特徵網格轉換為一個共同框架來得出這個公式:它們各自對應於一個查找函數,該函數索引到一個特徵向量表中。在這個框架中,現有數據結構的查找函數可以通過簡單的索引算術組合來組合,實現帕累托最優壓縮和速度。
目前的大規模擴散模型在條件圖像合成方面取得了巨大的進步,能夠解釋各種提示,如文本、人體姿勢和邊緣。然而,它們對大量計算資源和廣泛數據收集的依賴仍然是一個瓶頸。另一方面,現有擴散模型的整合,每個模型專門用於不同的控制並在獨特的潛在空間中運作,由於圖像分辨率和潛在空間嵌入結構不相容而面臨挑戰,阻礙了它們的聯合使用。為了應對這些限制,我們提出了一種新穎的潛在擴散模型,名為"PanGu-Draw",旨在實現資源高效的文本到圖像合成,能靈活適應多個控制信號。首先,我們提出了一種資源高效的時間解耦訓練策略,將整體的文本到圖像模型分為結構生成器和紋理生成器。通過最大程度地利用數據並提高計算效率的訓練方式,每個生成器可將數據準備減少48%,並將訓練資源減少51%。其次,我們引入了"Coop-Diffusion"算法,使各種預先訓練的擴散模型能夠在統一的去噪過程中合作使用,這些模型具有不同的潛在空間和預定分辨率。這使得能夠在任意分辨率下進行多控制圖像合成,而無需額外的數據或重新訓練。對PanGu-Draw的實證驗證顯示了其在文本到圖像和多控制圖像生成方面的卓越能力,為未來模型訓練效率和生成多樣性指明了一個有前景的方向。最大的5B T2I PanGu-Draw模型已在Ascend平台上發布。項目頁面:https://pangu-draw.github.io
最近在以主題驅動的圖像生成方面取得的進展已經實現了零樣本生成,然而對關鍵主題表示的精確選擇和聚焦仍然具有挑戰性。為了應對這一問題,我們引入了SSR-Encoder,這是一種新穎的架構,旨在有選擇性地從單個或多個參考圖像中捕獲任何主題。它可以回應包括文本和遮罩在內的各種查詢模態,而無需在測試時進行微調。SSR-Encoder結合了一個將查詢輸入與圖像裁剪對齊的Token-to-Patch Aligner,以及一個用於提取和保留主題細節特徵的Detail-Preserving Subject Encoder,從而生成主題嵌入。這些嵌入與原始文本嵌入一起條件化生成過程。SSR-Encoder以其模型的通用性和效率而著稱,它可以適應各種自定義模型和控制模塊。通過嵌入一致性正則化損失來增強訓練,我們的大量實驗證明了它在多樣且高質量圖像生成方面的有效性,表明其廣泛的應用性。項目頁面:https://ssr-encoder.github.io
基於文本的領域適應和生成3D感知肖像在各個領域中有許多應用。然而,由於缺乏訓練數據以及處理高變異幾何和外觀的挑戰,目前針對這些任務的現有方法存在著靈活性不足、不穩定性和低保真度等問題。在本文中,我們提出了一個新穎的框架DiffusionGAN3D,通過結合3D生成對抗網絡和擴散先驗,來增強基於文本的3D領域適應和生成。具體來說,我們集成了預訓練的3D生成模型(例如EG3D)和文本到圖像擴散模型。前者為從文本生成穩定且高質量的頭像提供了堅實基礎。而擴散模型則提供強大的先驗知識,並引導3D生成器進行微調,以實現靈活且高效的基於文本的領域適應。為了增強領域適應中的多樣性和文本到頭像生成能力,我們引入了相對距離損失和特定案例可學習的三平面。此外,我們設計了一個漸進式紋理精細化模塊,以提高上述兩個任務的紋理質量。大量實驗表明,所提出的框架在領域適應和文本到頭像任務中取得了優異的結果,在生成質量和效率方面優於現有方法。該項目主頁位於https://younglbw.github.io/DiffusionGAN3D-homepage/。
文字到圖像生成模型雖然功能強大,但使用起來卻很困難。用戶需精心設計特定提示以獲得更好的圖像,然而這些圖像可能會重複。本文提出了一個提示擴展框架,幫助用戶以更少的努力生成高質量、多樣化的圖像。提示擴展模型以文本查詢作為輸入,輸出一組擴展的文本提示,經過優化,當傳遞給文字到圖像模型時,生成更廣泛、吸引人的圖像。我們進行了一項人類評估研究,結果顯示通過提示擴展生成的圖像在美學上更為吸引人且多樣化,優於基準方法生成的圖像。總的來說,本文提出了一種新穎且有效的方法來改善文字到圖像生成的體驗。
去噪擴散模型固有的生成能力使其非常適合用於影像修復任務,其目標是在生成空間中找到與輸入影像密切相似的最佳高質量影像。我們提出了一種方法,通過向待修復的輸入影像添加噪聲,然後去噪,來適應預訓練的擴散模型進行影像修復。我們的方法基於這樣一個觀察,即生成模型的空間需要受到限制。我們通過對捕捉輸入影像特徵的一組錨定影像進行微調,來施加這種限制。有了受限空間,我們可以利用用於生成的採樣策略來進行影像修復。我們對比以前的方法進行評估,在多個真實世界的修復數據集上展示了卓越的性能,能夠保留身份和影像質量。我們還展示了一個重要且實用的個性化修復應用,其中我們使用個人相冊作為錨定影像來限制生成空間。這種方法使我們能夠產生能夠準確保留高頻細節的結果,而以前的作品無法做到。項目網頁:https://gen2res.github.io。