每日精選AI研究論文及翻譯
基於Transformer的語言模型會均勻地分配FLOPs到輸入序列中。在這項研究中,我們展示了Transformers可以學習動態地將FLOPs(或計算)分配給序列中的特定位置,優化模型深度中不同層的序列上的分配。我們的方法通過限制可以參與自注意力和MLP計算的令牌數(k)來強制執行總計算預算。要處理的令牌是由網絡使用top-k路由機制確定的。由於k是事先定義的,這個簡單的程序使用具有已知張量大小的靜態計算圖,不像其他有條件的計算技術。然而,由於k令牌的身份是流動的,這種方法可以在時間和模型深度維度上非均勻地消耗FLOPs。因此,計算支出在總和上是完全可預測的,但在令牌級別上是動態且具有上下文敏感性的。這種訓練方式的模型不僅學會動態分配計算,而且效率高。這些模型在相等的FLOPS和牆鐘時間訓練時能夠達到基準性能,但每次前向傳遞所需的FLOPs只有一小部分,並且在後訓練抽樣期間的步驟速度可能快50%。
我們提出了視覺自回歸建模(VAR),這是一種重新定義圖像上自回歸學習的新一代範式,將其定義為粗到細的“下一尺度預測”或“下一解析度預測”,與標準的光柵掃描“下一標記預測”有所不同。這種簡單直觀的方法使得自回歸(AR)變壓器能夠快速學習視覺分佈並具有良好的泛化能力:VAR首次使得AR模型在圖像生成方面超越了擴散變壓器。在ImageNet 256x256基準測試中,VAR通過將Frechet Inception Distance(FID)從18.65提高到1.80,Inception Score(IS)從80.4提高到356.4,並且推理速度提高約20倍,顯著改善了AR基準。實證證實VAR在多個維度上優於擴散變壓器(DiT),包括圖像質量、推理速度、數據效率和可擴展性。擴展VAR模型展現出明顯的冪定律擴展規律,類似於LLMs中觀察到的,具有接近-0.998的線性相關係數作為堅實的證據。VAR進一步展示了在包括圖像修補、外部修補和編輯在內的下游任務中的零樣本泛化能力。這些結果表明VAR已初步模擬了LLMs的兩個重要特性:擴展規律和零樣本任務泛化。我們已經發布了所有模型和代碼,以促進AR/VAR模型在視覺生成和統一學習方面的探索。
演算推理指的是理解問題背後的複雜模式並將其分解為解決方案的推理步驟序列的能力。演算推理的這種特性使其對大型語言模型(LLMs)構成挑戰,即使它們在其他推理任務中表現出有希望的性能。在這個背景下,一些最近的研究使用編程語言(例如Python)來表達解決給定實例/問題(例如,思維程序)所需邏輯的靈感來自它們嚴格和精確的語法。然而,在單次推理調用中即時撰寫表達正確邏輯的可執行代碼是非常困難的。此外,專門為一個實例生成的代碼無法重複使用於其他實例,即使它們來自相同任務並可能需要相同的邏輯來解決。本文提出了一種新穎的框架Think-and-Execute,將語言模型的推理過程分解為兩個步驟。在Think中,我們發現一個在解決給定任務時所有實例共享的任務級邏輯,然後用偽代碼表達這個邏輯;在Execute中,我們進一步為每個實例定制生成的偽代碼並模擬代碼的執行。通過對七個演算推理任務進行大量實驗,我們展示了Think-and-Execute的有效性。我們的方法相較於執行特定實例推理的幾個強基線(例如CoT和PoT),更好地改善了語言模型的推理,這表明發現任務級邏輯的幫助性。此外,我們表明與自然語言相比,偽代碼可以更好地引導語言模型的推理,即使它們被訓練遵循自然語言指令。
大型語言模型(LLMs)展現出優秀的掌握人類語言能力,但在需要數學問題解決的實際應用中仍然面臨困難。儘管已經開發了許多增強LLMs數學能力的策略和數據集,但在部署的LLM系統中同時保持和提升語言和數學能力仍然是一個挑戰。在這項工作中,我們定制了自我評論流程,該流程解決了LLM校準的反饋學習階段中的挑戰。我們首先從LLM本身訓練一個通用的數學評論模型來提供反饋信號。然後,我們依次採用拒絕微調和直接偏好優化LLM自身生成的數據收集。基於ChatGLM3-32B,我們在學術界和我們新創建的具有挑戰性的數據集MathUserEval上進行了一系列實驗。結果顯示,我們的流程顯著增強了LLM的數學問題解決能力,同時仍然提高了其語言能力,優於可能大兩倍的LLMs。相關技術已經部署到ChatGLM\url{https://chatglm.cn},這是一個在線服務的LLM。相關的評估數據集和腳本已在https://github.com/THUDM/ChatGLM-Math上發布。
無需調整的擴散式模型在圖像個性化和定制領域展現了顯著的潛力。然而,儘管取得了顯著進展,當前模型仍然面臨著在生成風格一致圖像方面的幾個複雜挑戰。首先,風格的概念本質上是不確定的,包括諸如顏色、材料、氛圍、設計和結構等多個元素。其次,基於反演的方法容易出現風格退化問題,通常導致細節的喪失。最後,基於適配器的方法經常需要對每個參考圖像進行細緻的權重調整,以實現風格強度和文本可控性之間的平衡。本文首先檢視幾個引人注目但經常被忽視的觀察,然後介紹InstantStyle,這是一個旨在通過實施兩個關鍵策略來解決這些問題的框架:1)一個簡單的機制,將風格和內容從特徵空間中的參考圖像中解耦,基於這樣一個假設,即同一空間中的特徵可以相互添加或相互減去。2)將參考圖像特徵專門注入到風格特定塊中,從而防止風格洩漏,避免繁瑣的權重調整,這經常是更多參數密集型設計的特徵。我們的工作展示了卓越的視覺風格化結果,實現了風格強度與文本元素可控性之間的最佳平衡。我們的代碼將在https://github.com/InstantStyle/InstantStyle 上提供。
對於LLM的演進,擴大模型和數據規模已經取得了相當成功的成果。然而,擴散型文本到圖像(T2I)模型的擴展法則尚未完全探索。如何有效地擴展模型以在降低成本的同時提高性能,目前仍不清楚。不同的訓練設置和昂貴的訓練成本使得進行公平的模型比較極為困難。在這項研究中,我們通過對去噪主幹和訓練集進行廣泛而嚴格的消融實驗,對擴散型T2I模型的擴展特性進行了實證研究,包括在高達6億張圖像的數據集上訓練範圍從0.4B到4B參數的UNet和Transformer變體。在模型擴展方面,我們發現跨注意力的位置和量是區分現有UNet設計性能的關鍵。增加Transformer塊對於改善文本-圖像對齊比增加通道數更具參數效率。然後,我們確定了一種高效的UNet變體,比SDXL的UNet小45%,速度快28%。在數據擴展方面,我們表明訓練集的質量和多樣性比僅僅數據集大小更為重要。增加標題密度和多樣性可以提高文本-圖像對齊性能和學習效率。最後,我們提供了用於預測文本-圖像對齊性能的擴展函數,這些函數是模型大小、計算和數據集大小的函數。
本研究探討了在文本條件擴散模型推論過程中跨注意力的作用。我們發現跨注意力的輸出在少數推論步驟後會收斂到一個固定點。因此,收斂的時間點自然地將整個推論過程分為兩個階段:初始的語義規劃階段,在此階段模型依賴跨注意力來規劃以文本為導向的視覺語義;以及後續的保真度改進階段,在此階段模型試圖從先前規劃的語義生成圖像。令人驚訝的是,在保真度改進階段中忽略文本條件不僅降低了計算複雜度,還保持了模型性能。這帶來了一種簡單且無需訓練的高效生成方法,稱為TGATE,一旦跨注意力輸出收斂,就將其緩存並在其餘推論步驟中保持不變。我們對MS-COCO驗證集的實證研究確認了其有效性。TGATE的源代碼可在https://github.com/HaozheLiu-ST/T-GATE 找到。
本文通過頻率分解實現高保真、可轉移的 NeRF 編輯。最近的 NeRF 編輯流程將 2D 風格化結果提升至 3D 場景,但存在模糊結果問題,並且無法捕捉由於 2D 編輯不一致而導致的細節結構。我們的關鍵洞察是圖像的低頻分量在編輯後與高頻部分相比更具多視角一致性。此外,外觀風格主要展現在低頻分量上,而內容細節尤其存在於高頻部分。這促使我們在低頻分量上進行編輯,從而產生高保真的編輯場景。此外,編輯是在低頻特徵空間中進行的,實現穩定的強度控制和新穎的場景轉移。在逼真數據集上進行的全面實驗證明了高保真和可轉移的 NeRF 編輯的卓越性能。項目頁面位於 https://aigc3d.github.io/freditor。