每日精選AI研究論文及翻譯
最近的研究,如 BitNet,正在為一位元大型語言模型(LLM)的新時代鋪平道路。在這項工作中,我們介紹了一種1位元LLM變體,即BitNet b1.58,其中LLM的每個單個參數(或權重)均為三元組{-1, 0, 1}。它與相同模型大小和訓練標記的全精度(即FP16或BF16)Transformer LLM在困惑度和最終任務表現方面相匹配,同時在延遲、內存、吞吐量和能源消耗方面顯著更具成本效益。更重要的是,1.58位元LLM定義了一個新的縮放定律和訓練新一代既高性能又具成本效益的LLM的方法。此外,它還實現了一種新的計算範式,並為設計專為1位元LLM優化的特定硬體敞開了大門。
在這項工作中,我們致力於增強說話頭像視頻生成中的寫實感和表現力,著重於音頻提示與面部運動之間的動態和微妙關係。我們確定傳統技術的局限性,往往無法捕捉到人類表情的全部範疇以及個人面部風格的獨特性。為了應對這些問題,我們提出了EMO,一種新穎的框架,採用直接的音頻到視頻合成方法,避免了中間3D模型或面部標誌的需求。我們的方法確保了無縫的幀過渡和視頻中一致的身份保留,從而產生高度表現力和逼真的動畫。實驗結果表明,EMO不僅能夠生成令人信服的說話視頻,還能以各種風格生成歌唱視頻,在表現力和寫實性方面顯著優於現有的最先進方法論。
Sora是一個由OpenAI於2024年2月發布的文本到視頻生成AI模型。該模型經過訓練,能夠根據文本指令生成逼真或富有想像力的場景視頻,展現出在模擬物理世界方面的潛力。本文基於公開的技術報告和逆向工程,全面回顧了該模型的背景、相關技術、應用、尚存挑戰以及文本到視頻AI模型未來發展方向。我們首先追溯了Sora的發展歷程,並研究了用於構建這個“世界模擬器”的基礎技術。然後,我們詳細描述了Sora在從電影製作和教育到營銷等多個行業中的應用和潛在影響。我們討論了需要解決的主要挑戰和限制,以便廣泛部署Sora,例如確保安全和公正的視頻生成。最後,我們討論了Sora和視頻生成模型的未來發展,以及領域的進步如何能夠促進人工智能與人類互動的新方式,提升視頻生成的生產力和創造力。
數十年來,人機互動基本上一直是手動進行的。即使在今天,幾乎所有在電腦上進行的生產性工作都需要人類在每一步驟上進行輸入。自主虛擬代理人代表了自動化許多這些瑣碎任務的一個令人興奮的步驟。虛擬代理人將使技術能力有限的用戶能夠充分利用計算機系統的全部可能性。它們還可以實現有效地優化許多計算機任務,從日曆管理到複雜的旅行預訂,只需極少的人類干預。在本文中,我們介紹了 OmniACT,這是用於評估代理人生成可執行程序以完成計算機任務能力的首個數據集和基準。我們的範圍超出了傳統的網絡自動化,涵蓋了各種桌面應用程序。數據集包括基本任務,如“播放下一首歌曲”,以及較長期的任務,如“發送電子郵件給約翰·杜,提及會面的時間和地點”。具體來說,給定一對屏幕圖像和視覺導向的自然語言任務,目標是生成能夠完全執行任務的腳本。我們在我們的基準上運行了幾個強大的基準語言模型代理。最強的基準,GPT-4,在我們的基準上表現最佳。然而,它的表現水平仍然只達到了人類在生成能夠完成任務的可執行腳本方面的 15% 的熟練度,這表明了我們的任務對於傳統網絡代理的挑戰。我們的基準提供了一個平台,用於測量和評估語言模型代理在自動化計算機任務方面的進展,並激勵未來工作朝著構建將大型語言模型和計算機屏幕的視覺基礎相結合的多模型的方向發展。
儘管大型語言模型(LLMs)通常採用微調以發揮其在下游應用中的能力,但我們對於不同微調方法的歸納偏好(尤其是規模特性)的理解仍然有限。為了填補這一空白,我們進行系統性實驗,研究不同縮放因素(包括LLM模型大小、預訓練數據大小、新微調參數大小和微調數據大小)如何影響微調性能。我們考慮兩種微調類型--完整模型微調(FMT)和參數高效微調(PET,包括提示微調和LoRA),並探索它們在數據有限情況下的縮放行為,其中LLM模型大小遠遠超過微調數據大小。基於兩組從1B到16B的預訓練雙語LLMs以及對雙語機器翻譯和多語總結基準的實驗,我們發現:1)LLM微調遵循一種基於冪的乘法聯合縮放定律,介於微調數據大小和其他每個縮放因素之間;2)LLM微調更多地受益於LLM模型縮放而不是預訓練數據縮放,而PET參數縮放通常無效;3)最佳微調方法高度取決於任務和微調數據。我們希望我們的研究結果能夠幫助理解、選擇和發展LLM微調方法。
當輸入 tokens 的數量超過預訓練長度時,大型語言模型(LLMs)處理和生成連貫文本的能力明顯下降。考慮到使用更長序列進行大規模模型微調的昂貴成本,我們提出了雙重塊注意力(DCA),使 Llama2 70B 能夠支持超過 100k tokens 的上下文窗口而無需持續訓練。通過將長序列的注意力計算分解為基於塊的模塊,DCA 成功地捕捉了同一塊內(塊內)和不同塊之間(塊間)的 tokens 的相對位置信息,並與 Flash Attention 無縫集成。除了其令人印象深刻的外推能力外,DCA 在實際長篇上下文任務上實現的性能與或甚至優於微調模型相當。與專有模型相比,我們的無需訓練的 70B 模型達到了 gpt-3.5-16k 性能的 94%,表明它是一個可行的開源替代方案。本研究使用的所有代碼和數據均在 https://github.com/HKUNLP/ChunkLlama 上發布。
在以主題驅動的文本到圖像(T2I)生成模型領域中,像DreamBooth和BLIP-Diffusion這樣的最新發展取得了令人印象深刻的成果,但由於它們對精細調整的需求和大量參數要求而遇到了限制。雖然DreamBooth內的低秩適應(LoRA)模塊提供了可訓練參數的減少,但它引入了對超參數的明顯敏感性,導致在參數效率和T2I個性化圖像合成質量之間需要取得折衷。 為了應對這些限制,我們引入了\textit{DiffuseKronA},一個基於Kronecker乘積的適應模塊,不僅將參數數量分別降低了35%和99.947%,與LoRA-DreamBooth和原始DreamBooth相比,還增強了圖像合成的質量。重要的是,DiffuseKronA緩解了超參數敏感性問題,通過各種超參數範圍提供了一致高質量的生成,從而減少了對於大量精細調整的必要性。此外,更可控的分解使DiffuseKronA更具可解釋性,甚至可以實現與LoRA-Dreambooth相當的結果,同時減少高達50%的參數,。在各種複雜的輸入圖像和文本提示的評估中,DiffuseKronA始終優於現有模型,生成質量更高、對象的色彩分佈更準確的多樣化圖像,同時保持卓越的參數效率,從而在T2I生成建模領域取得了重大進展。我們的項目頁面包含代碼和預先訓練的檢查點的鏈接,可在https://diffusekrona.github.io/ 上找到。
網絡上充斥著豐富的文字和影片數據,通過下一個標記或幀預測支持大規模的自監督學習。然而,它們並未被同等利用:語言模型在現實世界中產生了顯著影響,而視頻生成在很大程度上仍局限於媒體娛樂。然而,視頻數據捕捉了關於物理世界的重要信息,這些信息在語言中很難表達。為了彌補這一差距,我們討論了一個被低估的機會,即擴展視頻生成以解決現實世界中的任務。我們觀察到,類似於語言,視頻可以作為一個統一的接口,可以吸收互聯網知識並代表多樣的任務。此外,我們展示了如何通過上下文學習、規劃和強化學習等技術,視頻生成可以作為規劃者、代理人、計算引擎和環境模擬器。我們確定了在領域中的主要影響機會,如機器人技術、自動駕駛和科學,這些領域得到了最近的研究支持,該研究表明,視頻生成中的這些高級功能可能是可以實現的。最後,我們確定了在視頻生成中阻礙進展的主要挑戰。解決這些挑戰將使視頻生成模型能夠在更廣泛的人工智能應用中展示與語言模型相同的獨特價值。
現有關於長期開放領域對話的研究主要集中在評估模型回應,其上下文範圍不超過五個聊天會話。儘管長文本大語言模型(LLMs)和檢索增強生成(RAG)技術有所進展,但它們在非常長期對話中的效力尚未被探索。為填補這一研究空白,我們引入了一個機器-人類流程,通過利用基於LLM的代理架構並將對話基於人物角色和時間事件圖來生成高質量的非常長期對話。此外,我們賦予每個代理能力來分享和對圖像做出反應。生成的對話由人類標註者進行驗證和編輯,以確保長期一致性和與事件圖的關聯性。通過這個流程,我們收集了LoCoMo,一個非常長期對話的數據集,每個對話包括300輪,平均9K個標記,最多可達35個會話。基於LoCoMo,我們提出了一個全面的評估基準,用於測量模型的長期記憶,包括問答、事件摘要和多模態對話生成任務。我們的實驗結果表明,LLMs在理解冗長對話和理解對話中的長期時間和因果動態方面存在挑戰。採用長文本LLMs或RAG等策略可以帶來改進,但這些模型仍然明顯落後於人類表現。
本研究探討改善語言模型(LMs)學習的一般原則,旨在減少實現優越性能所需的訓練步驟。具體而言,我們提出了一個關於LMs最佳學習的理論。我們首先提出一個目標,通過在“LM訓練作為無損壓縮”的觀點下最大化數據壓縮比來優化LM學習。然後,我們推導出一個定理,名為學習定律,揭示了在我們的目標下最佳學習過程中動態性質。該定理隨後通過對線性分類和現實世界語言建模任務的實驗進行驗證。最後,我們在實證上證實,LMs的最佳學習基本上源於改善LMs的比例定律中的係數,這對設計實用的學習加速方法具有重要潛力和意義。我們的程式碼可在https://aka.ms/LearningLaw 找到。
最近開發的 Sora 模型[1] 在影片生成方面展現出卓越的能力,引發了對其模擬真實世界現象能力的激烈討論。儘管其日益普及,卻缺乏建立的指標來定量評估其與真實世界物理的符合度。本文引入了一個新的基準,評估生成影片的質量,基於其遵循真實世界物理原則的程度。我們採用一種方法將生成的影片轉換為3D模型,利用這樣的前提:3D重建的準確性在很大程度上取決於影片質量。從3D重建的角度來看,我們使用構建的3D模型滿足的幾何約束的忠實度作為一個代理,來衡量生成的影片符合真實世界物理規則的程度。專案頁面:https://sora-geometrical-consistency.github.io/
影片和音訊內容創作是電影業和專業使用者的核心技術。最近,現有基於擴散的方法分別處理影片和音訊生成,這阻礙了從學術界向工業界的技術轉移。在這項工作中,我們旨在填補這一差距,通過一個精心設計的基於優化的框架,用於跨視覺-音訊和聯合視覺-音訊生成。我們觀察到現成的影片或音訊生成模型具有強大的生成能力。因此,我們提出了一種方法,不是從頭開始訓練龐大的模型,而是建立現有強大模型與共享潛在表示空間之間的橋樑。具體來說,我們提出了一種多模態潛在對齊器,使用預訓練的ImageBind模型。我們的潛在對齊器與在推論時引導擴散去噪過程的分類器引導具有相似的核心。通過精心設計的優化策略和損失函數,我們展示了我們的方法在聯合影片-音訊生成、視覺導向音訊生成和音訊導向視覺生成任務上的卓越性能。項目網站位於https://yzxing87.github.io/Seeing-and-Hearing/
在這份工作中,我們分享了三個洞見,以實現文本到圖像生成模型的最先進美學質量。我們專注於模型改進的三個關鍵方面:增強色彩和對比度、改善跨多個長寬比的生成,以及提升以人為中心的細節。首先,我們深入探討在訓練擴散模型時噪聲時間表的重要性,展示其對現實感和視覺保真度的深遠影響。其次,我們解決了在圖像生成中應對各種長寬比的挑戰,強調準備平衡的分桶數據集的重要性。最後,我們研究了將模型輸出與人類偏好對齊的關鍵作用,確保生成的圖像與人類感知期望 resonates。通過廣泛的分析和實驗,Playground v2.5 在各種條件和長寬比下展示了最先進的美學質量表現,優於廣泛使用的開源模型如 SDXL 和 Playground v2,以及閉源商業系統如 DALLE 3 和 Midjourney v5.2。我們的模型是開源的,希望 Playground v2.5 的開發為致力於提升基於擴散的圖像生成模型美學質量的研究人員提供寶貴的指南。
我們介紹了一種方法來生成被解開成其組成物件的3D場景。這種解開是無監督的,僅依賴於一個大型預訓練的文本到圖像模型的知識。我們的關鍵見解是,通過找到3D場景的部分,在空間上重新排列時仍然產生相同場景的有效配置,可以發現物件。具體來說,我們的方法從頭開始聯合優化多個NeRF模型 - 每個模型代表其自己的物件 - 以及一組將這些物件合成場景的佈局。然後,我們鼓勵這些合成的場景根據圖像生成器處於分佈中。我們展示了,儘管其簡單性,我們的方法成功生成了被分解為個別物件的3D場景,從而在文本到3D內容創作中實現了新的能力。有關結果和互動演示,請參見我們的項目頁面:https://dave.ml/layoutlearning/
現有基於 NeRF 的大場景重建方法通常在視覺品質和渲染速度上存在限制。儘管最近的 3D 高斯濺射方法在小規模和以物體為中心的場景上表現良好,但將其擴展到大場景會面臨限制的視頻內存、長時間優化和明顯的外觀變化等挑戰。為應對這些挑戰,我們提出了 VastGaussian,這是基於 3D 高斯濺射的大場景高質量重建和實時渲染的第一方法。我們提出了一種漸進式分割策略,將大場景劃分為多個單元,其中訓練相機和點雲根據空域感知可見性準則進行適當分佈。這些單元在並行優化後合併為完整場景。我們還將解耦的外觀建模引入優化過程中,以減少渲染圖像中的外觀變化。我們的方法優於現有的基於 NeRF 的方法,在多個大場景數據集上實現了最先進的結果,實現了快速優化和高保真實時渲染。