AI研究論文每日精選

每日精選AI研究論文及翻譯

你的Transformer其實是線性的
Your Transformer is Secretly Linear

May 19

ByAnton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Nikolai Gerasimenko, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov

157

本文揭示了一種新穎的線性特性，僅存在於Transformer解碼器中，包括GPT、LLaMA、OPT、BLOOM等模型。我們分析了連續層之間的嵌入轉換，揭示了一種接近完美的線性關係（普羅克魯斯相似度得分為0.99）。然而，當去除殘差組件時，由於Transformer層的輸出範數一直較低，導致線性度下降。我們的實驗表明，去除或線性逼近一些最線性的Transformer區塊並不會顯著影響損失或模型性能。此外，在我們對較小模型進行的預訓練實驗中，我們引入了基於餘弦相似度的正則化，旨在減少層的線性度。這種正則化改善了像Tiny Stories和SuperGLUE這樣的基準測試中的性能指標，同時成功降低了模型的線性度。這項研究挑戰了對Transformer架構的現有理解，暗示它們的運作可能比先前假設的更線性。

通過跨層注意力減少Transformer鍵-值緩存的大小
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

May 21

ByWilliam Brandon, Mayank Mishra, Aniruddha Nrusimha, Rameswar Panda, Jonathan Ragan Kelly

鍵-值（KV）緩存在加速基於變壓器的自回歸大型語言模型（LLM）的解碼中發揮著重要作用。然而，在長序列長度和大批量大小時，存儲KV緩存所需的記憶體量可能變得過高。自變壓器的發明以來，為減少KV緩存大小發現的兩種最有效的方法是多查詢注意力（MQA）及其泛化形式組查詢注意力（GQA）。MQA和GQA都修改了注意力塊的設計，使多個查詢頭可以共享單個鍵/值頭，大幅減少不同鍵/值頭的數量，同時僅對準確性造成輕微影響。本文中，我們展示了可以通過在相鄰層之間共享鍵和值頭，將多查詢注意力推進一步，從而產生一種我們稱為跨層注意力（CLA）的新型注意力設計。通過CLA，我們發現可以將KV緩存大小再次減少2倍，同時保持幾乎與未修改的MQA相同的準確性。在從頭開始訓練10億和30億參數模型的實驗中，我們展示了CLA相對於傳統MQA可能的記憶體/準確性折衷提供了帕累托改進，實現了比傳統方法更長序列長度和更大批量大小的推論。

擴散用於世界建模：Atari 中的視覺細節至關重要
Diffusion for World Modeling: Visual Details Matter in Atari

May 20

ByEloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret

世界模型是一種有前途的方法，可安全且有效地訓練強化學習代理人。最近的世界模型主要基於序列的離散潛變數來模擬環境動態。然而，這種將資訊壓縮為緊湊的離散表示可能忽略了對強化學習重要的視覺細節。與此同時，擴散模型已成為圖像生成的主要方法，挑戰著傳統的建模離散潛變數方法。受這種範式轉變的啟發，我們介紹了DIAMOND（DIffusion As a Model Of eNvironment Dreams），這是一個在擴散世界模型中訓練的強化學習代理人。我們分析了使擴散適合於世界建模所需的關鍵設計選擇，並展示了如何通過改進視覺細節來提高代理人的性能。DIAMOND在具競爭性的Atari 100k基準測試中實現了平均人類標準化分數1.46；這是完全在世界模型內訓練的代理人的最佳表現。為了促進未來對於將擴散應用於世界建模的研究，我們在https://github.com/eloialonso/diamond 上釋出了我們的程式碼、代理人和可玩的世界模型。

適用於預訓練擴散模型的臉部適配器：具備細粒度身份與屬性控制功能
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

May 21

ByYue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu

當前的人臉重演與替換方法主要依賴生成對抗網絡框架，但近期研究焦點已轉向預訓練擴散模型，因其具備更優越的生成能力。然而，訓練這類模型需要大量計算資源，且現有成果尚未達到理想性能水平。為解決此問題，我們提出Face-Adapter——一種專為預訓練擴散模型設計的高效適配器，可實現高精度與高保真度的人臉編輯。我們觀察到，無論是人臉重演或替換任務，本質上均涉及目標結構、身份特徵與屬性的組合。我們的目標是充分解耦對這些因素的控制，以單一模型實現雙重任務。具體而言，本方法包含：1）空間條件生成器，提供精確人臉關鍵點與背景；2）即插即用身份編碼器，通過轉碼器將人臉嵌入向量轉換至文本空間；3）屬性控制器，整合空間條件與細節屬性。相比完全微調的人臉重演/替換模型，Face-Adapter在動作控制精度、身份保持能力與生成質量方面達到相當甚至更優的性能。此外，該適配器可無縫集成於多種StableDiffusion模型。

OmniGlue：具有基礎模型引導的通用特徵匹配
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21

ByHanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo

在影像匹配領域中，我們不斷見證到新穎的可學習特徵匹配技術的出現，這些技術在傳統基準測試中的表現不斷提升。然而，我們的研究顯示，儘管取得這些進展，這些方法在應用於真實世界時受限於其對新型影像領域的有限泛化能力。本文介紹了 OmniGlue，這是第一個以泛化為核心原則設計的可學習影像匹配器。OmniGlue利用視覺基礎模型的廣泛知識來引導特徵匹配過程，提升對訓練時未見過的領域的泛化能力。此外，我們提出了一種新穎的關鍵點位置引導的注意機制，可以區分空間和外觀信息，從而提高匹配描述符的性能。我們在包括場景級、物體中心和航拍影像在內的7個數據集上進行了全面的實驗。相對於一個直接可比的參考模型，OmniGlue的新穎組件使在未見過的領域取得了20.9%的相對增益，同時也優於最近的 LightGlue 方法9.5%的相對增益。程式碼和模型可在 https://hwjiang1510.github.io/OmniGlue 找到。

概念驅動文字轉圖像生成中的個性化殘差
Personalized Residuals for Concept-Driven Text-to-Image Generation

May 21

ByCusuh Ham, Matthew Fisher, James Hays, Nicholas Kolkin, Yuchen Liu, Richard Zhang, Tobias Hinz

我們提出個性化殘差與局部化注意力引導採樣技術，用於實現基於文字到圖像擴散模型的高效概念驅動生成。我們的方法首先通過凍結預訓練文字條件擴散模型的權重，並針對模型層的小型子集學習低秩殘差來表徵概念。這種基於殘差的方法直接支援我們提出的採樣技術應用——僅在透過交叉注意力定位的概念區域施加學習得到的殘差，並在所有其他區域保持原始擴散權重。局部化採樣因此能將學習到的概念特徵與底層擴散模型的既有生成先驗相結合。實驗表明，個性化殘差可在單一GPU上約3分鐘內有效捕捉概念特徵，無需使用正則化圖像且參數量少於先前模型，而局部化採樣則允許在圖像大部分區域沿用原始模型的強力先驗。

你的Transformer其實是線性的

Your Transformer is Secretly Linear

May 19

ByAnton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Nikolai Gerasimenko, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov

157

通過跨層注意力減少Transformer鍵-值緩存的大小

Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

May 21

ByWilliam Brandon, Mayank Mishra, Aniruddha Nrusimha, Rameswar Panda, Jonathan Ragan Kelly

擴散用於世界建模：Atari 中的視覺細節至關重要

Diffusion for World Modeling: Visual Details Matter in Atari

May 20

ByEloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret

適用於預訓練擴散模型的臉部適配器：具備細粒度身份與屬性控制功能

Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

May 21

ByYue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu

OmniGlue：具有基礎模型引導的通用特徵匹配

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21

ByHanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo

概念驅動文字轉圖像生成中的個性化殘差

Personalized Residuals for Concept-Driven Text-to-Image Generation

May 21

ByCusuh Ham, Matthew Fisher, James Hays, Nicholas Kolkin, Yuchen Liu, Richard Zhang, Tobias Hinz