每日精選AI研究論文及翻譯
大型語言模型建立在基於Transformer架構的基礎上,用於處理文本輸入。例如,LLaMA在眾多開源實現中脫穎而出。同一個Transformer能否用於處理2D圖像?本文通過揭示一種類似LLaMA的視覺Transformer,以純粹和金字塔形式呈現,名為VisionLLaMA,來回答這個問題,並且特別為此目的量身定制。VisionLLaMA是一個統一且通用的建模框架,用於解決大多數視覺任務。我們通過在圖像感知和特別是圖像生成的許多下游任務中廣泛評估其有效性。在許多情況下,VisionLLaMA展示出明顯優於先前最先進的視覺Transformer的收益。我們相信VisionLLaMA可以作為視覺生成和理解的強大新基準模型。我們的代碼將在https://github.com/Meituan-AutoML/VisionLLaMA上發布。
聯合嵌入預測架構(JEPA)已成為一種有前途的自監督方法,通過利用世界模型來學習。雖然以前僅限於預測輸入中缺失的部分,我們探索了如何將JEPA預測任務擴展到更廣泛的損壞集。我們引入了圖像世界模型,這種方法超越了遮罩圖像建模,學習在潛在空間中預測全局光度變換的影響。我們研究了學習高效IWM的配方,並展示它依賴於三個關鍵方面:條件、預測困難度和容量。此外,我們展示了通過微調可以適應IWM學習的預測世界模型來解決各種任務;經過微調的IWM世界模型與或超越了先前的自監督方法的性能。最後,我們表明通過IWM學習可以控制所學表示的抽象級別,學習不變表示,如對比方法,或等變表示,如遮罩圖像建模。
本文討論在具有旋轉位置嵌入(RoPE)的大型語言模型(LLMs)中,面對訓練短、測試長(TSTL)情境的挑戰,即在較短序列上預訓練的模型在較長序列中遇到超出分布範圍(OOD)的標記位置時會遇到困難。我們引入了Resonance RoPE,這是一種新方法,旨在通過精煉RoPE功能的內插,縮小TSTL情境中的泛化差距,顯著提高模型性能,而無需額外的在線計算成本。此外,我們提出了PosGen,這是一個新的合成基準,專門設計用於TSTL情境中的細粒度行為分析,旨在從長內容上隨著時間不斷增加的標記生成困難和識別新標記位置的挑戰中進行隔離。我們在合成任務上的實驗表明,在應用Resonance RoPE後,Transformers更好地且更穩健地識別OOD位置。我們的大量LLM實驗還表明,在將Resonance RoPE應用於當前最先進的RoPE縮放方法YaRN後,模型在上游語言建模任務和各種下游長文本應用中都表現出優異性能。
文本到圖像定制旨在為給定主題合成文本驅動的圖像,最近已經徹底改變了內容創作。現有作品遵循虛擬詞範式,即將給定主題表示為虛擬詞,然後與給定文本組合。然而,虛擬詞與給定文本之間固有的交織影響範圍導致了雙重最適悖論,即給定主題的相似性和給定文本的可控性無法同時達到最優。我們提出了RealCustom,首次通過精確限制主題影響僅限於相關部分,從而將相似性與可控性區分開來。這是通過逐漸將真實文本詞從其一般內涵逐步縮小到具體主題,並使用其交叉注意力來區分相關性來實現的。具體來說,RealCustom引入了一種新穎的“訓練-推斷”解耦框架:(1)在訓練期間,RealCustom通過一個新穎的自適應評分模塊學習視覺條件與原始文本條件之間的一般對齊,以自適應調節影響量;(2)在推斷期間,提出了一種新穎的自適應遮罩引導策略,用於迭代更新給定主題的影響範圍和影響量,逐步縮小生成真實文本詞。全面的實驗證明了RealCustom在開放領域中具有卓越的實時定制能力,首次實現了給定主題的前所未有的相似性和給定文本的可控性。項目頁面為https://corleone-huang.github.io/realcustom/。
激活補丁(Activation Patching)是一種直接計算行為歸因於模型組件的方法。然而,要全面應用此方法需要進行一次掃描,其成本隨著模型組件數量線性增加,對於最先進的大型語言模型(LLMs)來說成本過高。我們研究了歸因補丁(Attribution Patching,AtP),這是一種快速基於梯度的激活補丁的近似方法,發現了兩類AtP失敗模式,導致顯著的偽陰性。我們提出了AtP的變體AtP*,通過兩個改變來解決這些失敗模式,同時保持可擴展性。我們首次系統研究了AtP以及更快的激活補丁的替代方法,並展示AtP明顯優於所有其他研究方法,AtP*提供進一步顯著的改進。最後,我們提供了一種方法來界定AtP*估計的偽陰性概率。