每日精選AI研究論文及翻譯
去年,多模態架構在基於人工智慧的方法和解決方案中引發了一場革命,擴展了大型語言模型(LLM)的能力。我們提出了一個基於預訓練LLM和視覺模態適配器的 OmniFusion 模型。我們評估並比較了幾種架構設計原則,以實現更好的文本和視覺數據耦合:MLP和變壓器適配器、各種基於CLIP ViT的編碼器(如 SigLIP、InternVIT 等)及其融合方法、圖像編碼方法(整個圖像或瓷磚編碼)以及兩個7B的LLM(專有的和開源的 Mistral)。在8個視覺語言基準測試中進行的實驗顯示,在不同的視覺問答任務方面,最佳 OmniFusion 設置的得分優於開源的類似LLaVA的解決方案:VizWiz、Pope、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2、MMMU。我們還提出了各種情況,其中 OmniFusion 在不同領域提供了高度詳細的答案:家務、觀光、文化、醫學、手寫和掃描方程式識別等。基於 Mistral 的 OmniFusion 模型是一個開源解決方案,權重、訓練和推理腳本可在 https://github.com/AIRI-Institute/OmniFusion 上找到。
大型解碼器專用語言模型(LLMs)是當今大多數自然語言處理任務和基準測試中的最先進模型。然而,社群對於將這些模型應用於需要豐富上下文表示的文本嵌入任務的採納速度較慢。在這項工作中,我們介紹了LLM2Vec,這是一種簡單的無監督方法,可以將任何解碼器專用的LLM轉換為強大的文本編碼器。LLM2Vec包括三個簡單步驟:1)啟用雙向注意力,2)遮罩下一個標記預測,以及3)無監督對比學習。我們通過將LLM2Vec應用於從13億到70億參數範圍內的3個熱門LLMs,並在英語單詞和序列級任務上評估轉換後的模型,展示了LLM2Vec的有效性。我們在單詞級任務上大幅優於僅具編碼器的模型,並在大規模文本嵌入基準測試(MTEB)上達到了新的無監督最先進性能。此外,當將LLM2Vec與監督對比學習結合時,我們在僅在公開可用數據上訓練的模型中實現了MTEB的最先進性能。我們強大的實證結果和廣泛的分析表明,LLMs可以在不需要昂貴適應或合成GPT-4生成數據的情況下,以參數高效的方式有效轉換為通用文本編碼器。
我們提出了Eagle(RWKV-5)和Finch(RWKV-6),這是在RWKV(RWKV-4)架構基礎上進行改進的序列模型。我們的架構設計改進包括多頭矩陣狀態和動態循環機制,提高了表達能力,同時保持了RNN的推理效率特性。我們引入了一個包含1.12兆標記的新多語言語料庫,以及一個基於貪婪匹配的快速分詞器,以增強多語能力。我們訓練了四個Eagle模型,參數範圍從0.46到75億,以及兩個擁有16億和31億參數的Finch模型,發現它們在各種基準測試中取得了競爭性表現。我們在HuggingFace上以Apache 2.0許可證釋出所有模型。模型位於:https://huggingface.co/RWKV 訓練代碼位於:https://github.com/RWKV/RWKV-LM 推理代碼位於:https://github.com/RWKV/ChatRWKV 時間並行訓練代碼位於:https://github.com/RWKV/RWKV-infctx-trainer
大視覺語言模型(LVLM)領域取得了顯著進展,但由於分辨率有限而對細微視覺內容的理解存在挑戰,進展受到了阻礙。最近的努力旨在增強LVLM的高分辨率理解能力,但它們仍然受限於約1500 x 1500像素並受限於相對較窄的分辨率範圍。本文介紹了InternLM-XComposer2-4KHD,這是一項開創性的探索,旨在將LVLM的分辨率能力提升至4K HD(3840 x 1600)及以上。同時,考慮到在所有情況下都可能不需要超高分辨率,它支持從336像素到4K標準的各種不同分辨率,顯著擴大了其應用範圍。具體來說,本研究通過引入一種新的擴展:具有自動補丁配置的動態分辨率,推進了補丁劃分範式。它保持了訓練圖像的長寬比,同時根據預先訓練的視覺Transformer(ViT)(336 x 336)自動變化補丁數量並配置佈局,從而實現了從336像素到4K標準的動態訓練分辨率。我們的研究表明,將訓練分辨率提升至4K HD可以持續提升性能,而不會達到潛在改進的上限。InternLM-XComposer2-4KHD在16個基準測試中的10個中展現出優異能力,與GPT-4V和Gemini Pro相匹敵甚至超越。InternLM-XComposer2-4KHD模型系列具有70億參數,可在https://github.com/InternLM/InternLM-XComposer 公開獲得。
在開發擁有高達一兆參數的大型語言模型(LLMs)方面,越來越多的興趣引發了對資源效率和實際成本的擔憂,特別是考慮到實驗的巨大成本。這種情況凸顯了探索小型語言模型(SLMs)作為資源高效替代方案的重要性。在這種情況下,我們介紹了MiniCPM,具體而言是1.2B和2.4B的非嵌入參數變體,不僅在各自的類別中表現出色,而且展示了與7B-13B LLMs相當的能力。在專注於SLMs的同時,我們的方法展示了未來LLM研究中模型和數據維度的可擴展性。在模型擴展方面,我們進行了大量穩定且最佳的模型風洞實驗。在數據擴展方面,我們引入了一種適用於持續訓練和領域適應的Warmup-Stable-Decay(WSD)學習率調度器(LRS)。我們對WSD LRS中發生的引人入勝的訓練動態進行了深入分析。有了WSD LRS,我們現在能夠高效地研究數據-模型擴展定律,而無需在模型和數據的兩個軸上進行大量的重新訓練實驗,從中我們得出了比Chinchilla Optimal更高的計算最佳數據-模型比率。此外,我們還介紹了MiniCPM家族,包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K,其出色的性能進一步鞏固了MiniCPM在各種SLM應用中的基礎。MiniCPM模型可在https://github.com/OpenBMB/MiniCPM 上公開獲得。
指令調整已成為對齊大型語言模型(LLMs)與特定任務指令的關鍵,從而減輕下一個標記預測目標與用戶實際目標之間的差異。為了減少人類收集或標註數據的勞動和時間成本,研究人員開始探索使用LLMs生成與指令對齊的合成數據。最近的研究專注於生成多樣化指令並應用LLM增加指令複雜性,往往忽略了下游用例。如何量身定制高質量數據以引出不同目標指令分佈和LLMs中更好的指令跟隨能力仍不清楚。為此,我們介紹了CodecLM,一個通用框架,用於自適應生成高質量合成數據,以使LLMs與不同下游指令分佈和LLMs對齊。借鑒編碼-解碼原則,我們使用LLMs作為編解碼器來引導數據生成過程。我們首先將種子指令編碼為元數據,這些元數據是即時生成的簡潔關鍵詞,用於捕捉目標指令分佈,然後解碼元數據以創建量身定制的指令。我們還在解碼過程中引入了自我評分和對比過濾,以量身定制高效樣本。對四個開放領域指令跟隨基準進行的大量實驗驗證了CodecLM相對於當前技術水平的有效性。
本文探討大型語言模型(LLMs)在音樂預訓練中的應用。儘管 MIDI 在音樂建模中的普遍應用已被確立,但我們的研究結果表明,LLMs 與 ABC 記譜法更相容,與其設計和優勢更為契合,從而提升模型在音樂作曲中的表現。為解決在生成過程中來自不同軌道的不對齊節拍所帶來的挑戰,我們提出了一種同步多軌道 ABC 記譜法(SMT-ABC 記譜法),旨在保持多個音樂軌道之間的連貫性。我們的貢獻包括一系列能處理高達 8192 個標記的模型,涵蓋我們訓練集中 90% 的符號音樂數據。此外,我們探討符號音樂擴展定律(SMS Law)對模型性能的影響。研究結果顯示了音樂生成領域未來研究的一個有前景的方向,通過我們的開源貢獻為社區主導的研究提供了豐富的資源。
3D生成建模的演進明顯受益於2D擴散模型的採用。儘管取得進展,但繁瑣的優化過程本身對效率構成了重要障礙。在本文中,我們介紹Hash3D,一種無需模型訓練即可加速3D生成的通用方法。Hash3D的核心在於洞察到從相鄰時間步長和相機角度渲染的圖像中存在特徵圖冗余。通過有效地對這些特徵圖進行哈希和重複使用,Hash3D大大減少了冗餘計算,從而加速了3D生成任務中擴散模型的推斷。我們通過一種自適應基於網格的哈希實現了這一點。令人驚訝的是,這種特徵共享機制不僅加快了生成速度,還增強了合成的3D物體的平滑度和視圖一致性。我們的實驗涵蓋了5個文本到3D和3個圖像到3D模型,展示了Hash3D在加速優化方面的多功能性,將效率提高了1.3至4倍。此外,Hash3D與3D高斯飛濺的整合大大加快了3D模型的創建速度,將文本到3D處理時間縮短到約10分鐘,圖像到3D轉換時間縮短到約30秒。項目頁面位於https://adamdad.github.io/hash3D/。
儘管大規模語言模型(LLMs)已經廣泛可用,但在不同語言之間仍存在實質性的能力和可用性差距。解決這些問題的一種方法是將現有的預訓練LLM繼續在新語言上進行訓練。雖然先前的研究已經嘗試過語言適應,但許多關於最佳實踐和方法論的問題尚未涵蓋。在本文中,我們對LLMs適應新語言進行了全面調查。我們的研究涵蓋了這個過程中的關鍵組成部分,包括詞彙擴展、直接偏好優化以及在資源稀缺語言中進行人類對齊的數據稀缺問題。我們將這些實驗擴展到9種語言和2個參數規模(7B和70B)。我們將我們的模型與Llama 2、Aya-101、XGLM、BLOOM和現有的語言專家進行比較,並優於所有先前發表的基準線。此外,所有評估代碼和檢查點都已公開,以促進未來研究。
透過大規模的文本到圖像擴散模型,文本到3D生成已取得顯著成功。然而,目前尚無法將這種方法融入城市尺度。城市場景以眾多元素、複雜的排列關係和龐大的尺度為特徵,對於模型優化的有效性構成了難以理解的模糊文本描述的障礙。在本研究中,我們通過將組合式3D佈局表示引入文本到3D範式,克服了這些限制,作為額外的先驗。它包括一組具有簡單幾何結構和明確排列關係的語義基元,補充了文本描述,實現了可操控的生成。基於此,我們提出了兩項修改:(1)我們引入佈局引導變分分數蒸餾,以解決模型優化不足的問題。它通過3D佈局的幾何和語義約束來條件化分數蒸餾採樣過程。(2)為應對城市場景的無限性,我們使用可擴展的哈希網格結構來表示3D場景,逐步適應城市場景不斷增長的尺度。大量實驗證實了我們的框架將文本到3D生成擴展至覆蓋超過1000米行駛距離的大規模城市場景的能力。我們還展示了各種場景編輯演示,展示了可操控的城市場景生成的威力。網站:https://urbanarchitect.github.io。
本文討論了在三維高斯噴灑(3DGS)中自適應密度控制(ADC)的限制,這是一種實現高質量、照片逼真結果的場景表示方法,用於新視角合成。ADC已被引入自動三維點基元管理,控制稠密化和修剪,但在稠密化邏輯上存在一定限制。我們的主要貢獻是在3DGS中提出一種更有原則性的、以像素誤差驅動的密度控制公式,利用輔助的、以每像素誤差函數作為稠密化標準。我們進一步引入一種機制來控制每個場景生成的基元總數,並在克隆操作期間修正ADC當前不透明度處理策略中的偏差。我們的方法在各種基準場景中帶來了一致的質量改進,而不會犧牲該方法的效率。
受惠於2D擴散模型的快速發展,最近3D內容創作取得了顯著進展。一種有前途的解決方案涉及微調預訓練的2D擴散模型,以利用其產生多視角影像的能力,然後通過快速NeRFs或大型重建模型等方法轉換為準確的3D模型。然而,由於仍存在不一致性和生成分辨率有限,這些方法生成的結果仍然缺乏精細紋理和複雜幾何形狀。為解決這個問題,我們提出了Magic-Boost,一種多視角條件擴散模型,通過短暫的SDS優化(約15分鐘)顯著改進粗糙的生成結果。與先前基於文本或單張圖像的擴散模型相比,Magic-Boost展現出強大的能力,能夠從虛擬合成的多視角影像中生成具有高一致性的圖像。它提供精確的SDS指導,與輸入圖像的特徵相吻合,豐富了初始生成結果的幾何和紋理的局部細節。大量實驗表明,Magic-Boost極大地增強了粗糙的輸入,生成具有豐富幾何和紋理細節的高質量3D資產。 (專案頁面:https://magic-research.github.io/magic-boost/)
手部操控的物件(即 manipulanda)特別具挑戰性,從野外的 RGB 影像或影片中重建這些物件。手部不僅遮擋了大部分的物件,而且物件通常只在少數像素中可見。同時,在這種情況下出現了兩個強大的錨點:(1)估計的 3D 手有助於消除物件的位置和尺度的歧義,以及(2)相對於所有可能的物件,可操控物件的集合很小。基於這些見解,我們提出了一種可擴展的手持物件重建範式,借鑑了最近在大型語言/視覺模型和 3D 物件數據集上的突破。我們的模型,MCC-Hand-Object(MCC-HO),在單個 RGB 影像和推斷的 3D 手作為輸入時,聯合重建手部和物件幾何。隨後,我們使用 GPT-4(V) 檢索一個與影像中物件相匹配的 3D 物件模型,並將模型剛性對齊到網絡推斷的幾何;我們將此對齊稱為檢索增強重建(RAR)。實驗表明,MCC-HO 在實驗室和互聯網數據集上實現了最先進的性能,並展示了如何使用 RAR 自動獲取手部-物件互動的野外影像的 3D 標籤。
儘管許多人已經展示了大型語言模型(LLMs)如何應用於各種任務,但資料污染和記憶化這兩個關鍵問題通常被忽略。在這項研究中,我們針對表格數據解決了這個問題。具體來說,我們引入了各種不同的技術來評估語言模型在訓練期間是否見過表格數據集。這項研究揭示了LLMs已經逐字記憶了許多熱門的表格數據集。然後,我們比較了LLMs在訓練期間看到的數據集和訓練後釋放的數據集上的少樣本學習表現。我們發現LLMs在訓練期間看到的數據集上表現更好,這表明記憶化導致了過度擬合。同時,LLMs在新數據集上表現出非平凡的性能,並且對數據轉換驚人地具有韌性。然後,我們調查了LLMs的上下文統計學習能力。在沒有進行微調的情況下,我們發現它們受限。這表明在新數據集上的少樣本表現很大程度上是由LLMs的世界知識所致。總的來說,我們的結果突顯了測試LLM是否在預訓練期間見過評估數據集的重要性。我們將我們開發的曝光測試作為tabmemcheck Python套件提供,網址為https://github.com/interpretml/LLM-Tabular-Memorization-Checker。