每日精選AI研究論文及翻譯
我們介紹了Voyager,這是第一個以LLM為動力的具體化終身學習代理人,在Minecraft中持續探索世界、獲得多樣技能並在無人干預下進行新的發現。Voyager由三個關鍵組件組成:1)最大化探索的自動課程,2)用於存儲和檢索複雜行為的可執行代碼的不斷增長技能庫,以及3)一種新的迭代提示機制,該機制融合了環境反饋、執行錯誤和自我驗證以改進程序。Voyager通過黑盒查詢與GPT-4進行交互,從而避免了對模型參數進行微調的需要。Voyager所發展的技能在時間上是延長的、可解釋的和組合的,這迅速增強了代理人的能力並減輕了災難性遺忘。從實證上看,Voyager展現了強大的上下文終身學習能力,並在玩Minecraft方面表現出色。它獲得了比先前最先進技術更多的獨特物品(3.3倍)、行進距離更長(2.3倍),並比先前最先進技術快達15.3倍的速度解鎖關鍵技術樹里程碑。Voyager能夠在新的Minecraft世界中利用所學的技能庫從頭解決新任務,而其他技術則難以泛化。我們在https://voyager.minedojo.org/上開源了完整的代碼庫和提示。
分數蒸餾取樣(SDS)在文本轉3D生成中展現出巨大潛力,通過提煉預訓練的大規模文本到圖像擴散模型,但存在飽和過度、過度平滑和低多樣性問題。在這項工作中,我們建議將3D參數建模為一個隨機變量,而不是像SDS中那樣作為常數,並提出變分分數蒸餾(VSD),這是一個基於粒子的變分框架,用於解釋和解決文本轉3D生成中上述問題。我們展示了SDS是VSD的一個特例,並導致使用小型和大型CFG權重的樣本質量不佳。相比之下,VSD能夠很好地處理各種CFG權重,作為從擴散模型中祖先取樣,同時通過共同的CFG權重(即7.5)提高多樣性和樣本質量。我們進一步提出了文本到3D設計空間的各種改進,例如蒸餾時間表和密度初始化,這些改進與蒸餾算法正交,但尚未得到很好的探索。我們的整體方法被稱為ProlificDreamer,可以生成高渲染分辨率(即512x512)和高保真度的NeRF,具有豐富的結構和複雜效果(例如煙霧和水滴)。此外,從NeRF初始化,經VSD微調的網格細節豐富且逼真。項目頁面:https://ml.cs.tsinghua.edu.cn/prolificdreamer/
一種新興的方法,可以廉價地改進較弱的語言模型,就是對其進行微調,使用來自較強模型的輸出,例如像ChatGPT這樣的專有系統(例如Alpaca、Self-Instruct等)。這種方法旨在廉價地模仿專有模型的能力,利用較弱的開源模型。在這項工作中,我們對這種方法進行了批判性分析。我們首先對一系列模仿ChatGPT的LM進行微調,使用不同的基礎模型大小(1.5B至13B)、數據來源和模仿數據量(0.3M至150M標記)。然後,我們使用眾包評估者和經典NLP基準來評估這些模型。最初,我們對我們的模仿模型的輸出質量感到驚訝 - 它們在遵循指示方面表現得更好,眾包工作者將其輸出評為與ChatGPT具有競爭力。然而,當進行更有針對性的自動評估時,我們發現,在模仿數據中未受到重大支持的任務上,模仿模型與基礎LM到ChatGPT之間的差距幾乎沒有縮小。我們展示了這些性能差異可能會逃過人類評估者的注意,因為模仿模型擅長模仿ChatGPT的風格,但不擅長模仿其事實性。總的來說,我們得出結論,模型模仿是一個虛假的承諾:在開放和封閉LM之間存在著實質性的能力差距,目前的方法只能通過大量的模仿數據或使用更有能力的基礎LM來彌合這一差距。因此,我們認為,改進開源模型的最有效行動是應對開發更好的基礎LM這一困難挑戰,而不是走捷徑,模仿專有系統。
穩定擴散模型(SDMs)在文本轉圖像(T2I)生成方面取得了卓越的成果,但也伴隨著相當大的計算需求。為解決此問題,最近對高效SDMs的研究優先考慮減少採樣步驟數量和利用網絡量化。與這些方向相對,本研究突顯了通過引入去塊知識蒸餾SDMs(BK-SDMs)來實現通用T2I合成的古典架構壓縮的優勢。我們從SDMs的U-Net中刪除了多個殘差和注意力塊,使參數數量、每個採樣步驟的MACs和延遲均減少了超過30%。我們僅使用單個A100 GPU上的0.22M LAION對進行基於蒸餾的預訓練(少於完整訓練對的0.1%)。儘管使用有限資源進行訓練,我們的緊湊模型可以通過轉移學習受益,模仿原始SDM並在零樣本MS-COCO基準測試中與具有數十億參數的大型模型取得競爭力的結果。此外,我們展示了我們輕量預訓練模型在通過DreamBooth微調進行個性化生成中的應用性。
文字到圖像擴散模型能根據使用者提供的文字提示生成多樣且高保真度的圖像。最近的研究將這些模型擴展為支持文字引導的圖像編輯。儘管文字引導對用戶來說是直觀的編輯界面,但往往無法確保準確傳達用戶所表達的概念。為解決此問題,我們提出了Custom-Edit,其中我們(i)使用少量參考圖像自定義擴散模型,然後(ii)進行文字引導編輯。我們的關鍵發現是,僅通過使用擴增提示自定義與語言相關的參數,能顯著提高參考相似性,同時保持源相似性。此外,我們提供了每個自定義和編輯過程的配方。我們比較了流行的自定義方法,並在各種數據集上驗證了我們的發現。
近年來,音樂生成領域取得了顯著進展,其中最先進的音樂語言模型 MusicLM 採用了一個由三個不同層次的語言模型組成的層次結構,分別用於語義建模、粗略聲學建模和細緻聲學建模。然而,使用 MusicLM 進行取樣需要逐個通過這些語言模型進行處理,以獲得細緻的聲學標記,這使得計算成本高昂,難以實時生成。以與 MusicLM 相當質量的效率進行音樂生成仍然是一個重大挑戰。在本文中,我們提出了 MeLoDy(M 代表音樂;L 代表語言模型;D 代表擴散),這是一種 LM 引導的擴散模型,可以生成具有最先進質量的音樂音頻,同時將 MusicLM 中取樣 10 秒或 30 秒音樂所需的前向傳遞次數分別減少了 95.7% 或 99.6%。MeLoDy 繼承了 MusicLM 中的最高層語言模型進行語義建模,並應用了一種新穎的雙路徑擴散(DPD)模型和音頻 VAE-GAN,以高效地將條件語義標記解碼為波形。DPD 被提出來同時建模粗略和細緻聲學,通過在每個去噪步驟中有效地將語義信息整合到潛在段落中的交叉注意力,以實現此目的。我們的實驗結果表明 MeLoDy 的優越性,不僅體現在取樣速度和無限延續生成方面的實際優勢,還體現在其最先進的音樂性、音頻質量和文本相關性上。 我們的樣本可在 https://Efficient-MeLoDy.github.io/ 上獲得。
我們提出了流形擴散場(MDF),這是一種學習在黎曼流形上定義的連續函數生成模型的方法。借鑒了光譜幾何分析的見解,我們通過 Laplace-Beltrami 操作子的特徵函數在流形上定義了一個內在坐標系統。MDF使用由多個輸入-輸出對形成的明確參數化來表示函數。我們的方法允許在流形上對連續函數進行抽樣,並且對流形的剛性和等度變換具有不變性。對多個數據集和流形的實證結果表明,MDF能夠比以前的方法更好地捕捉這些函數的分佈,具有更好的多樣性和保真度。
現在的文本到圖像擴散模型已經能夠生成與真實圖像常常難以區分的圖像。為了生成這樣的圖像,這些模型必須理解被要求生成的物體的語義。在這項工作中,我們展示了在沒有任何訓練的情況下,可以利用擴散模型內的語義知識來找到語義對應 - 多個圖像中具有相同語義意義的位置。具體來說,給定一個圖像,我們優化這些模型的提示嵌入,以便最大程度地關注感興趣的區域。這些優化的嵌入捕捉了有關位置的語義信息,然後可以將這些信息轉移到另一個圖像上。通過這樣做,我們在PF-Willow數據集上獲得了與強監督狀態下的最新技術相當的結果,並且在PF-Willow、CUB-200和SPair-71k數據集上明顯優於現有的任何弱監督或無監督方法(對於SPair-71k數據集,相對提升了20.9%)。