每日精選AI研究論文及翻譯
自回歸模型已成為視覺生成的強大方法,但由於其逐個預測過程,推理速度較慢。在本文中,我們提出了一種簡單而有效的並行自回歸視覺生成方法,提高了生成效率,同時保留了自回歸建模的優勢。我們的關鍵洞察是,並行生成取決於視覺標記之間的依賴關係-具有弱依賴性的標記可以並行生成,而具有強依賴性的相鄰標記難以一起生成,因為它們的獨立抽樣可能導致不一致。基於這一觀察,我們開發了一種並行生成策略,可以並行生成具有弱依賴性的遠程標記,同時對具有強依賴性的本地標記進行順序生成。我們的方法可以無縫集成到標準自回歸模型中,而無需修改架構或標記器。在ImageNet和UCF-101上的實驗表明,我們的方法實現了3.6倍的加速,並在圖像和視頻生成任務中實現了最多9.5倍的加速,而品質幾乎沒有下降。我們希望這項工作能激發未來在高效視覺生成和統一自回歸建模方面的研究。項目頁面: https://epiphqny.github.io/PAR-project.
通過離線強化學習(RL)來提升大型語言模型(LLMs)的多步推理能力對於快速適應它們到複雜任務是至關重要的。雖然直接偏好優化(DPO)在對齊LLMs與人類偏好方面顯示出潛力,但對於多步推理任務來說不太適用,原因在於(1)DPO依賴於成對偏好數據,這對於多步推理任務來說並不容易獲得,以及(2)它對待所有標記一視同仁,在多步推理任務中效果不佳,因為這些任務通常伴隨稀疏獎勵。在這項工作中,我們提出了OREO(離線推理優化),這是一種用於增強LLM多步推理的離線RL方法。借鑒於最大熵強化學習的先前工作,它通過優化軟Bellman方程聯合學習策略模型和價值函數。我們原則上展示了它減少了收集成對數據的需求,並實現更好的信用分配。在實證方面,OREO在多步推理基準測試中超越了現有的離線學習方法,包括數學推理任務(GSM8K,MATH)和具體代理控制(ALFWorld)。當額外資源可用時,這種方法可以擴展到多次迭代框架。此外,學習到的價值函數可以被利用來引導樹搜索,這可以在測試時進一步提高性能。
擴散Transformer(DiT)已成為圖像生成中的領先架構。然而,負責建模標記關係的注意機制的二次複雜度在生成高分辨率圖像時導致顯著的延遲。為了解決這個問題,本文旨在引入一種線性注意機制,將預先訓練的DiT的複雜度降低到線性。我們從對現有高效注意機制的全面總結開始探索,並確定了四個對於成功線性化預先訓練的DiT至關重要的關鍵因素:局部性、公式一致性、高秩注意力圖和特徵完整性。基於這些見解,我們引入了一種類似卷積的局部注意策略,稱為CLEAR,它將特徵交互限制在每個查詢標記周圍的局部窗口,從而實現線性複雜度。我們的實驗表明,通過僅在10K個自生成樣本上對注意層進行微調10K次迭代,我們可以有效地將知識從預先訓練的DiT轉移到具有線性複雜度的學生模型,產生與教師模型相媲美的結果。同時,它將注意計算減少了99.5%,並加速了生成8K分辨率圖像的速度6.3倍。此外,我們研究了蒸餾注意層中的有利特性,例如跨各種模型和插件的零樣本泛化,以及對多GPU並行推理的改進支持。模型和代碼可在此處找到:https://github.com/Huage001/CLEAR。
Key-Value(KV)緩存已成為長內容生成的LLMs的瓶頸。儘管在這個領域進行了大量努力,但通常忽略了對解碼階段的優化。然而,我們認為這種優化至關重要,特別是對於基於以下兩個觀察結果的長輸出生成任務:(i)在預填充階段過度壓縮,需要特定完整上下文會損害推理任務的理解;(ii)在具有長輸出的推理任務中,重要內容的偏差發生。因此,我們引入了SCOPE,這是一個簡單而高效的框架,可以在預填充和解碼階段分別執行KV緩存優化。具體而言,在預填充階段保留KV緩存以保持基本信息,同時提出了一種基於滑動的新策略,用於選擇解碼階段的重要內容。通過使用自適應和不連續策略進一步優化了內存使用和內存傳輸。在LongGenBench上進行的大量實驗顯示了SCOPE的有效性和泛化性,以及其作為其他僅限於預填充的KV壓縮方法的插件的兼容性。
我們提出使用新穎的多模態聯合訓練框架 MMAudio,根據視頻和可選文本條件來合成高質量且同步的音頻。與僅依賴(有限)視頻數據的單模態訓練相比,MMAudio 與更大規模、readily 可用的文本-音頻數據一起進行聯合訓練,以學習生成語義對齊的高質量音頻樣本。此外,我們通過一個條件同步模塊來改進音頻-視覺同步性,該模塊在幀級別上將視頻條件與音頻潛在表示進行對齊。通過流匹配目標進行訓練,MMAudio 在音頻質量、語義對齊和音頻-視覺同步方面在公共模型中實現了新的視頻到音頻的最新技術水平,同時具有低推理時間(生成 8 秒片段僅需 1.23 秒)和僅 157M 參數。MMAudio 在文本到音頻生成中也實現了驚人的競爭性表現,表明聯合訓練不會阻礙單模態性能。代碼和演示可在以下網址找到:https://hkchengrex.github.io/MMAudio
多模式大型語言模型(MLLMs)擅長生成高度詳細的標題,但常常出現幻覺。我們的分析顯示現有的幻覺檢測方法在處理詳細標題時遇到困難。我們認為這是由於隨著序列長度增加,MLLMs越來越依賴其生成的文本,而不是輸入圖像。為了解決這個問題,我們提出了一種多智能體方法,利用LLM-MLLM協作來糾正給定的標題。此外,我們引入了一個評估框架和一個基準數據集,以促進對詳細標題的系統分析。我們的實驗表明,我們提出的評估方法與人類對事實性的判斷更為一致,而現有的指標和方法改進MLLM事實性的效果在超詳細圖像標題任務中可能不盡理想。相反,我們提出的方法顯著提高了標題的事實準確性,甚至改進了由GPT-4V生成的標題。最後,我們通過展示MLLM在視覺問答基準測試中的表現可能與其生成詳細圖像標題的能力無關,突顯了以VQA為中心的基準測試的局限性。
量化已成為壓縮LLM至較小尺寸的最有效方法之一。然而,現有的量化解決方案仍存在顯著的準確度下降或系統效率不佳的限制。本文對一般量化原則對準確度、記憶體消耗和系統效率三角關係的影響進行了全面分析。我們提出了MixLLM,探索基於洞察力在輸出特徵之間的混合精度量化的新優化空間,因為不同的輸出特徵在模型中的重要性不同。MixLLM在全局視角中識別具有高重要性的輸出特徵,有效地將更大的位寬分配給最需要的輸出特徵,以實現良好的準確度和低記憶體消耗。我們提出了算法-系統共同設計的量化配置的最佳點,以實現高準確度和系統效率。為應對系統挑戰,我們設計了兩步驟的反量化,以輕鬆利用int8 Tensor Core和快速數據類型轉換,從而顯著減少反量化開銷,並提出了軟體管道以最佳方式重疊記憶體訪問、反量化和矩陣乘法。大量實驗表明,僅需多出10%的位元數,PPL增加量可從SOTA的約0.5降至Llama 3.1 70B的0.2左右,而MMLU-Pro平均改進了0.93,超越了三個流行模型的SOTA。除了具有卓越的準確度外,MixLLM還實現了最先進的系統效率。
我們提出了一種新穎的視頻建模區塊。它依賴於時間-空間-通道分解,每個維度都有專用區塊:閘控線性循環單元(LRUs)在時間上執行信息混合,自注意力層在空間上執行混合,而MLPs在通道上執行。由此產生的架構TRecViT在稀疏和密集任務上表現良好,可以在監督或自監督模式下進行訓練。值得注意的是,我們的模型是因果的,在大規模視頻數據集(SSv2、Kinetics400)上表現優異,優於或與純注意力模型ViViT-L相當,同時參數量少3倍,記憶體佔用量小12倍,和計算量低5倍。代碼和檢查點將在線上提供,網址為https://github.com/google-deepmind/trecvit。
3D 超分辨率的目標是從低解析度(LR)多視角影像中重建高保真度的 3D 模型。早期研究主要集中在單圖像超分辨率(SISR)模型上,將 LR 圖像升頻至高解析度圖像。然而,這些方法通常缺乏視角一致性,因為它們獨立地對每個圖像進行操作。儘管已廣泛探索各種後處理技術來減輕這些不一致性,但它們尚未完全解決問題。在本文中,我們通過利用視頻超分辨率(VSR)模型,對 3D 超分辨率進行了全面研究。通過利用 VSR 模型,我們確保更高程度的空間一致性,並可以參考周圍的空間信息,從而實現更準確和詳細的重建。我們的研究結果顯示,即使在缺乏精確空間對齊的序列上,VSR 模型也能表現出色。基於這一觀察,我們提出了一種簡單而實用的方法,用於對齊 LR 圖像,而無需進行微調或從訓練的 3D 模型上生成“平滑”軌跡。實驗結果表明,這些驚人簡單的算法可以在標準基準數據集(如 NeRF-synthetic 和 MipNeRF-360 數據集)上實現 3D 超分辨率任務的最新成果。項目頁面:https://ko-lani.github.io/Sequence-Matters
在這份工作中,我們提出了一個多LLM摘要框架,並研究了兩種不同的多LLM策略,包括集中式和分散式。我們的多LLM摘要框架在每輪對話中有兩個基本重要的步驟:生成和評估。這些步驟會根據我們使用的多LLM分散式或集中式摘要方法而有所不同。在我們的多LLM分散式和集中式策略中,我們有k個不同的LLM來生成文本的多樣摘要。然而,在評估過程中,我們的多LLM集中式摘要方法利用單個LLM來評估摘要並選擇最佳摘要,而在分散式多LLM摘要中則使用k個LLM。總的來說,我們發現我們的多LLM摘要方法在性能上顯著優於僅使用單個LLM的基準線,最多可提高3倍。這些結果表明了多LLM方法在摘要中的有效性。
從單張圖像創建高保真、可動畫的3D全身化身是一項具有挑戰性的任務,原因在於人類的外觀和姿勢多樣,且高質量訓練數據有限。為了實現快速且高質量的人體重建,本研究從性質、模型和表徵的角度重新思考了這一任務。首先,我們引入了一個大規模的以人為中心生成數據集,名為HuGe100K,包含10萬組多樣、逼真的人類圖像集。每組包含特定人體姿勢的24個視角幀,透過可控姿勢的圖像到多視角模型生成。接著,利用HuGe100K內的視角、姿勢和外觀多樣性,我們開發了一個可擴展的前饋變換器模型,從給定的人像圖像預測出一個統一空間中的3D人體高斯表徵。該模型訓練用於解開人體姿勢、身體形狀、服裝幾何和紋理。估算的高斯可以在無需後處理的情況下進行動畫。我們進行了全面的實驗以驗證所提出的數據集和方法的有效性。我們的模型展示了在單個GPU上即時從單個輸入圖像高效重建1K分辨率逼真人像的能力。此外,它無縫支持各種應用,以及形狀和紋理編輯任務。
本文介紹了Fietje,這是一個專為荷蘭語設計的小型語言模型(SLMs)系列。該模型基於Phi 2,一個擁有27億參數的以英語為中心的模型。Fietje在推出時展示了與更大語言模型競爭力的結果。本文的核心重點在於透明度和可重現性:Fietje是完全開源的,模型權重、數據集、訓練和評估代碼都是公開可訪問的。 本文討論了Fietje和許多其他模型在推理、情感分析、世界知識、語言可接受性和詞義消歧等廣泛評估基準上的性能。評估結果展示了在LLM領域中的快速進展,最近的小型模型優於為荷蘭語微調的舊的更大模型。這一趨勢預示著荷蘭語處理領域的美好未來,表明即使是緊湊的LLMs也變得越來越強大。 此外,將LLMs調整為荷蘭語的持續和未來努力將進一步增強這些模型,擴大其應用範圍和可訪問性。Fietje只是改善荷蘭語言技術對用戶的可訪問性的中間步驟。
在跨多種語言建立安全的大型語言模型(LLMs)對確保安全訪問和語言多樣性至關重要。為此,我們引入了M-ALERT,這是一個多語言基準,用於評估五種語言(英語、法語、德語、意大利語和西班牙語)中LLMs的安全性。M-ALERT每種語言包含15,000個高質量提示,總計75,000個,遵循詳細的ALERT分類法。我們對10種最先進的LLMs進行了廣泛實驗,突顯了語言特定安全性分析的重要性,揭示了模型在不同語言和類別中經常表現出顯著的安全性不一致性。例如,Llama3.2在意大利語的crime_tax類別中表現出高度的不安全性,但在其他語言中保持安全。在所有模型中都可以觀察到類似的差異。相反,某些類別,如substance_cannabis和crime_propaganda,在所有模型和語言中一致地觸發不安全的回應。這些發現強調了在LLMs中確保安全和負責任的使用跨多樣化用戶社群的需求。