每日精選AI研究論文及翻譯
PaliGemma是一個基於SigLIP-So400m視覺編碼器和Gemma-2B語言模型的開放式視覺語言模型(VLM)。它經過訓練,成為一個多功能且廣泛知識的基礎模型,非常適合進行轉移。在各種開放世界任務上表現出色。我們對PaliGemma進行了近40個不同任務的評估,包括標準VLM基準測試,以及更專門的任務,如遙感和分割任務。
大型語言模型(LLMs)展現出卓越的性能和廣泛的潛力,適用於各種任務。然而,在低資源環境中部署性能優異的LLMs已引起業界的重視。當GPU硬體資源有限時,我們可以在CPU上探索替代方案。為了減輕財務負擔並緩解硬體資源帶來的限制,優化推論性能是必要的。本文介紹了一種易於部署的推論性能優化解決方案,旨在加速在CPU上運行的LLMs。在這個解決方案中,我們實現了一種有效的方法來減少KV緩存大小,同時確保精度。我們提出了一種分佈式推論優化方法,並基於oneAPI Collective Communications Library實現了它。此外,我們提出了針對CPU上LLMs的優化方法,並針對最常用的模型進行了定制優化。代碼已在https://github.com/intel/xFasterTransformer上開源。
視覺指導調整在增強大型多模態模型(LMMs)的能力方面取得了顯著進展。然而,現有的開放式LMMs主要專注於單圖像任務,它們在多圖像情境下的應用仍未被充分探索。此外,先前的LMM研究分別處理不同情境,使得無法將新興能力泛化到跨情境。為此,我們介紹了LLaVA-NeXT-Interleave,同時處理LMMs中的多圖像、多幀(視頻)、多視角(3D)和多補丁(單圖像)情境。為了實現這些能力,我們將交錯的數據格式視為一個通用模板,並編制了包含1,177.6k樣本的M4-Instruct數據集,涵蓋了4個主要領域,14個任務和41個數據集。我們還精心編輯了LLaVA-Interleave Bench,全面評估LMMs的多圖像性能。通過大量實驗,LLaVA-NeXT-Interleave在多圖像、視頻和3D基準測試中取得了領先的結果,同時保持了單圖像任務的性能。此外,我們的模型還展現了一些新興能力,例如在不同設置和模態之間轉移任務。代碼可在https://github.com/LLaVA-VL/LLaVA-NeXT找到。
我們提出了4DiM,一種用於4D新視角合成(NVS)的串聯擴散模型,條件是一個或多個一般場景的影像,以及一組相機姿勢和時間戳。為了克服由於4D訓練數據有限而帶來的挑戰,我們主張在3D(具有相機姿勢)、4D(姿勢+時間)和視頻(僅時間無姿勢)數據上進行聯合訓練,並提出一種新的架構來實現這一點。我們進一步主張使用單眼度量深度估算器校準SfM姿勢數據,以實現度量尺度相機控制。為了對模型進行評估,我們引入了新的指標來豐富並克服當前評估方案的缺陷,展示了與現有3D NVS擴散模型相比在保真度和姿勢控制方面的最新成果,同時增加了處理時間動態的能力。4DiM還用於改進全景拼接、姿勢條件下的視頻到視頻翻譯以及其他幾項任務。有關概述,請參見https://4d-diffusion.github.io。
隨著在文本轉視頻生成領域取得顯著突破,根據視頻輸入生成語義和時間上對齊的音頻內容已成為研究人員的焦點。在這項工作中,我們旨在提供有關視頻轉音頻生成範式的洞察,重點關注三個關鍵方面:視覺編碼器、輔助嵌入和數據擴增技術。從基礎模型VTA-LDM開始,該模型建立在一個簡單但出乎意料地有效的直覺上,我們通過消融研究探索各種視覺編碼器和輔助嵌入。通過採用強調生成質量和視頻-音頻同步對齊的全面評估流程,我們展示了我們的模型展現出最先進的視頻轉音頻生成能力。此外,我們提供了有關不同數據擴增方法對增強生成框架整體能力的影響的關鍵見解。我們展示了從語義和時間角度生成同步音頻的挑戰的可能性。我們希望這些見解將成為發展更加真實和準確的音視覺生成模型的基石。
我們提出了 VEnhancer,一個生成式時空增強框架,通過在空間領域中添加更多細節和在時間領域中合成詳細運動,改進了現有的文本到視頻結果。給定一個生成的低質量視頻,我們的方法可以通過統一的視頻擴散模型同時增加其空間和時間分辨率,並具有任意的上採樣空間和時間尺度。此外,VEnhancer有效地消除了生成的視頻中的空間人工物和時間閃爍。為了實現這一目標,基於預訓練的視頻擴散模型,我們訓練了一個視頻 ControlNet,並將其注入到擴散模型中,作為低幀率和低分辨率視頻的條件。為了有效地訓練這個視頻 ControlNet,我們設計了時空數據增強以及視頻感知條件。由於上述設計的好處,VEnhancer 在訓練期間保持穩定,並具有優雅的端到端訓練方式。大量實驗表明,VEnhancer 在增強 AI 生成的視頻方面超越了現有的最先進視頻超分辨率和時空超分辨率方法。此外,憑藉 VEnhancer,現有的開源最先進文本到視頻方法 VideoCrafter-2 在視頻生成基準測試 VBench 中達到了第一名。
最近,定制文本到圖像(T2I)模型在個性化、風格化和條件生成等領域取得了巨大進展。然而,將這種進展擴展到視頻生成仍處於起步階段,主要是由於缺乏定制視頻數據。在這項工作中,我們引入了一個名為Still-Moving的新型通用框架,用於定制文本到視頻(T2V)模型,而無需任何定制視頻數據。該框架適用於主流的T2V設計,其中視頻模型是基於文本到圖像(T2I)模型構建的(例如,通過膨脹)。我們假設可以訪問定制版本的T2I模型,該模型僅在靜態圖像數據上進行了訓練(例如,使用DreamBooth或StyleDrop)。將定制T2I模型的權重直接插入T2V模型通常會導致顯著的瑕疵或不足以符合定制數據。為了克服這個問題,我們訓練了輕量級的空間適配器,用於調整注入的T2I層生成的特徵。重要的是,我們的適配器是在“凍結視頻”(即重複圖像)上進行訓練的,這些視頻是通過定制T2I模型生成的圖像樣本構建的。這種訓練是通過一個新型的運動適配器模塊進行的,該模塊使我們能夠在保留視頻模型運動先驗的同時在靜態視頻上進行訓練。在測試時,我們刪除運動適配器模塊,僅保留訓練好的空間適配器。這樣可以恢復T2V模型的運動先驗,同時遵循定制T2I模型的空間先驗。我們在各種任務上展示了我們方法的有效性,包括個性化、風格化和條件生成。在所有評估的場景中,我們的方法無縫地將定制T2I模型的空間先驗與T2V模型提供的運動先驗整合在一起。
據說大規模預訓練語言模型(LMs)"缺乏將話語與世界連結的能力"(Bender和Koller,2020),因為它們沒有"世界的心智模型"(Mitchell和Krakauer,2023)。如果是這樣,人們會預期LM表示與視覺模型誘導的表示無關。我們在四個LM家族(BERT、GPT-2、OPT和LLaMA-2)和三種視覺模型架構(ResNet、SegFormer和MAE)之間進行實證評估。我們的實驗表明,LM部分趨向於收斂到與視覺模型同構的表示,受到分散性、多義性和頻率的影響。這對多模態處理和LM理解辯論都具有重要意義(Mitchell和Krakauer,2023)。
現有的視覺-文本對比學習模型通過匹配配對的圖像和標題嵌入,同時將不相關的配對分開,增強了表示可轉移性,支持零樣本預測。然而,與互聯網上可用的一般圖像和標籤數據集相比,天文圖像-標籤數據集顯著較小。我們引入了CosmoCLIP,一個精確在預先訓練的CLIP模型上進行微調的天文圖像-文本對比學習框架,使用SpaceNet和基於BLIP的標題。通過FLARE獲得的SpaceNet包含約13k個最佳分佈的圖像,而BLIP則充當豐富的知識提取器。從SpaceNet和BLIP描述中獲得的豐富語義,在對比學習時,使CosmoCLIP能夠在各種領域內和領域外任務中實現優越的泛化。我們的結果表明,CosmoCLIP是一個直觀但強大的框架,在零樣本分類和圖像-文本檢索任務中明顯優於CLIP。
本文探討代碼生成測試集的污染問題,特別是在現代大型語言模型中的應用。我們討論了三種可能造成此類污染的來源,並展示支持每種來源的研究結果:(i) 直接數據洩露,(ii) 通過使用合成數據間接數據洩露,以及 (iii) 在模型選擇期間對評估集的過度擬合。 我們研究的關鍵在於一個包含161個提示及其相應Python解決方案的新數據集,該數據集已在https://huggingface.co/datasets/CohereForAI/lbpp 上發布。
我們提出了一種機器人學習方法,用於溝通、規劃和執行各種任務,名為This&That。我們通過利用在互聯網規模數據上訓練的具有豐富物理和語義上下文的視頻生成模型的能力,實現了機器人對於一般任務的規劃。在這項工作中,我們應對了基於視頻的規劃中的三個基本挑戰:1)通過簡單的人類指令進行明確的任務溝通,2)尊重用戶意圖的可控視頻生成,以及3)將視覺規劃轉化為機器人動作。我們提出了語言-手勢條件來生成視頻,相較於現有僅使用語言的方法,特別是在複雜和不確定的環境中,這種方法更為簡單和清晰。然後,我們建議一種行為克隆設計,無縫地將視頻計劃納入其中。This&That展示了在應對上述三個挑戰方面的最新有效性,並證明了將視頻生成用作通用任務規劃和執行的中間表示的合理性。項目網站:https://cfeng16.github.io/this-and-that/.
在網路爬蟲數據上訓練分類器需要學習算法能夠抵抗標註錯誤和無關的範例。本文建立在最近的實證觀察之上,即將非監督對比學習應用於嘈雜的網路爬蟲數據集,可以產生一種特徵表示,使得分布內(ID)和分布外(OOD)樣本可以線性可分。我們展示直接估計分離超平面確實可以準確檢測OOD樣本,然而令人驚訝的是,這種檢測並未轉化為分類準確性的提升。深入研究這一現象,我們發現這種近乎完美的檢測錯過了一類對監督學習有價值的乾淨範例。這些範例通常代表視覺上簡單的圖像,使用標準的損失或距離方法往往可以輕鬆識別為乾淨範例,儘管在非監督學習中與OOD分布之間的分離不佳。由於我們進一步觀察到與SOTA指標的低相關性,這促使我們提出一種混合解決方案,交替使用線性分離進行噪聲檢測和最先進的小損失方法。當與SOTA算法PLS結合時,我們在存在網路噪聲的真實圖像分類中顯著改善了SOTA結果。GitHub網址:github.com/PaulAlbert31/LSA
我們介紹了 BiGym,一個針對行動雙手示範驅動機器人操作的新基準和學習環境。BiGym 包含40個不同任務,設定在家庭環境中,從簡單的目標達成到複雜的廚房清潔任務不等。為了準確捕捉現實世界的表現,我們為每個任務提供了人類收集的示範,反映了現實世界機器人軌跡中所發現的多樣性模態。BiGym 支持各種觀測,包括本體感覺數據和視覺輸入,例如 RGB 和來自3個攝影機視角的深度。為了驗證 BiGym 的可用性,我們在環境中全面評估了最先進的模仿學習算法和示範驅動強化學習算法,並討論未來的機遇。
眾人動態生成在娛樂行業(如動畫和遊戲)以及戰略領域(如城市模擬和規劃)中至關重要。這項新任務需要精細地整合控制和生成,以實際合成在特定空間和語義約束下的人群動態,其挑戰尚未完全探索。一方面,現有的人類動態生成模型通常專注於個人行為,忽略了集體行為的複雜性。另一方面,最近的多人動態生成方法嚴重依賴於預定義的情境,並且僅限於固定的少量人際互動,因此限制了它們的實用性。為了克服這些挑戰,我們引入了CrowdMoGen,一個零樣本文本驅動框架,利用大型語言模型(LLM)的力量將集體智慧整合到動態生成框架中作為指導,從而實現人群動態的通用規劃和生成,而無需配對訓練數據。我們的框架包括兩個關鍵組件:1)Crowd Scene Planner,根據特定場景背景或引入的擾動學習協調動作和動態,以及2)Collective Motion Generator,根據整體計劃高效合成所需的集體動作。廣泛的定量和定性實驗驗證了我們框架的有效性,該框架不僅通過提供可擴展和通用的解決方案填補了人群動態生成任務的關鍵空白,而且實現了高水準的真實感和靈活性。