每日精選AI研究論文及翻譯
本文揭示了一種新穎的線性特性,僅存在於Transformer解碼器中,包括GPT、LLaMA、OPT、BLOOM等模型。我們分析了連續層之間的嵌入轉換,揭示了一種接近完美的線性關係(普羅克魯斯相似度得分為0.99)。然而,當去除殘差組件時,由於Transformer層的輸出範數一直較低,導致線性度下降。我們的實驗表明,去除或線性逼近一些最線性的Transformer區塊並不會顯著影響損失或模型性能。此外,在我們對較小模型進行的預訓練實驗中,我們引入了基於餘弦相似度的正則化,旨在減少層的線性度。這種正則化改善了像Tiny Stories和SuperGLUE這樣的基準測試中的性能指標,同時成功降低了模型的線性度。這項研究挑戰了對Transformer架構的現有理解,暗示它們的運作可能比先前假設的更線性。
鍵-值(KV)緩存在加速基於變壓器的自回歸大型語言模型(LLM)的解碼中發揮著重要作用。然而,在長序列長度和大批量大小時,存儲KV緩存所需的記憶體量可能變得過高。自變壓器的發明以來,為減少KV緩存大小發現的兩種最有效的方法是多查詢注意力(MQA)及其泛化形式組查詢注意力(GQA)。MQA和GQA都修改了注意力塊的設計,使多個查詢頭可以共享單個鍵/值頭,大幅減少不同鍵/值頭的數量,同時僅對準確性造成輕微影響。本文中,我們展示了可以通過在相鄰層之間共享鍵和值頭,將多查詢注意力推進一步,從而產生一種我們稱為跨層注意力(CLA)的新型注意力設計。通過CLA,我們發現可以將KV緩存大小再次減少2倍,同時保持幾乎與未修改的MQA相同的準確性。在從頭開始訓練10億和30億參數模型的實驗中,我們展示了CLA相對於傳統MQA可能的記憶體/準確性折衷提供了帕累托改進,實現了比傳統方法更長序列長度和更大批量大小的推論。
世界模型是一種有前途的方法,可安全且有效地訓練強化學習代理人。最近的世界模型主要基於序列的離散潛變數來模擬環境動態。然而,這種將資訊壓縮為緊湊的離散表示可能忽略了對強化學習重要的視覺細節。與此同時,擴散模型已成為圖像生成的主要方法,挑戰著傳統的建模離散潛變數方法。受這種範式轉變的啟發,我們介紹了DIAMOND(DIffusion As a Model Of eNvironment Dreams),這是一個在擴散世界模型中訓練的強化學習代理人。我們分析了使擴散適合於世界建模所需的關鍵設計選擇,並展示了如何通過改進視覺細節來提高代理人的性能。DIAMOND在具競爭性的Atari 100k基準測試中實現了平均人類標準化分數1.46;這是完全在世界模型內訓練的代理人的最佳表現。為了促進未來對於將擴散應用於世界建模的研究,我們在https://github.com/eloialonso/diamond 上釋出了我們的程式碼、代理人和可玩的世界模型。
目前的人臉再現和交換方法主要依賴於生成對抗網絡(GAN)框架,但最近的焦點已轉向預訓練擴散模型,因為它們具有卓越的生成能力。然而,訓練這些模型需要大量資源,且結果尚未達到令人滿意的性能水平。為了應對這個問題,我們引入了Face-Adapter,一個專為預訓練擴散模型設計的高精度和高保真度人臉編輯適配器。我們觀察到,人臉再現/交換任務本質上涉及目標結構、ID和屬性的組合。我們的目標是充分解耦這些因素的控制,以實現一個模型中的兩個任務。具體來說,我們的方法包括:1)提供精確標記和背景的空間條件生成器;2)通過變壓器解碼器將人臉嵌入轉換為文本空間的即插即用身份編碼器;3)集成空間條件和詳細屬性的屬性控制器。Face-Adapter在運動控制精度、ID保留能力和生成質量方面實現了與完全微調的人臉再現/交換模型相當甚至更優越的性能。此外,Face-Adapter與各種StableDiffusion模型無縫集成。
在影像匹配領域中,我們不斷見證到新穎的可學習特徵匹配技術的出現,這些技術在傳統基準測試中的表現不斷提升。然而,我們的研究顯示,儘管取得這些進展,這些方法在應用於真實世界時受限於其對新型影像領域的有限泛化能力。本文介紹了 OmniGlue,這是第一個以泛化為核心原則設計的可學習影像匹配器。OmniGlue利用視覺基礎模型的廣泛知識來引導特徵匹配過程,提升對訓練時未見過的領域的泛化能力。此外,我們提出了一種新穎的關鍵點位置引導的注意機制,可以區分空間和外觀信息,從而提高匹配描述符的性能。我們在包括場景級、物體中心和航拍影像在內的7個數據集上進行了全面的實驗。相對於一個直接可比的參考模型,OmniGlue的新穎組件使在未見過的領域取得了20.9%的相對增益,同時也優於最近的 LightGlue 方法9.5%的相對增益。程式碼和模型可在 https://hwjiang1510.github.io/OmniGlue 找到。
我們提出了個性化殘差和區域關注引導取樣的方法,以實現使用文本到圖像擴散模型進行高效概念驅動生成。我們的方法首先通過凍結預訓練文本條件擴散模型的權重來表示概念,並學習一個小子集模型層的低秩殘差。基於殘差的方法直接實現了我們提出的取樣技術應用,該技術僅在通過交叉關注定位概念的區域應用學習的殘差,並在所有其他區域應用原始擴散權重。因此,區域取樣結合了概念的學習身份和底層擴散模型現有的生成先驗。我們展示了個性化殘差在單個 GPU 上在約 3 分鐘內有效捕獲概念的身份,而無需使用正則化圖像,並且比先前模型具有更少的參數,區域取樣允許在圖像的大部分區域使用原始模型作為強先驗。