每日精選AI研究論文及翻譯
我們提出了一種基於預訓練擴散模型的新型推論技術,用於文本條件下的視頻生成。我們的方法稱為FIFO-Diffusion,從概念上講能夠生成無需訓練的無限長視頻。這是通過迭代執行對角去噪來實現的,該方法同時處理一系列具有增加噪聲水平的連續幀,我們的方法在頭部出列一個完全去噪的幀,同時在尾部入列一個新的隨機噪聲幀。然而,對角去噪是一把雙刃劍,因為接近尾部的幀可以通過向前引用利用更乾淨的幀,但這種策略會引起訓練和推論之間的差異。因此,我們引入了潛在分區來減少訓練和推論之間的差距,並引入了前瞻去噪以利用向前引用的好處。我們已經展示了所提出方法在現有文本到視頻生成基準上的有希望的結果和有效性。
低秩適應是大型語言模型的一種受歡迎的參數高效微調方法。在本文中,我們分析了 LoRA 中實現的低秩更新的影響。我們的研究結果表明,低秩更新機制可能會限制大型語言模型有效學習和記憶新知識的能力。受到這一觀察的啟發,我們提出了一種名為 MoRA 的新方法,該方法利用方陣實現高秩更新,同時保持相同數量的可訓練參數。為實現這一目標,我們引入了相應的非參數操作符,以減少輸入維度並增加方陣的輸出維度。此外,這些操作符確保權重可以合併回大型語言模型,使得我們的方法可以像 LoRA 一樣部署。我們對我們的方法在五個任務上進行了全面評估:指導微調、數學推理、持續預訓練、記憶和預訓練。我們的方法在記憶密集型任務上優於 LoRA,並在其他任務上取得可比的性能。
隨著大型語言模型(LLMs)不斷按照規模定律增長,從人類反饋中進行強化學習(RLHF)因其出色的表現而受到重視。然而,與單個模型的預訓練或微調不同,對於訓練大型語言模型來說,對從人類反饋中進行強化學習(RLHF)進行規模化存在著跨越四個模型的協調挑戰。我們提出了OpenRLHF,這是一個開源框架,可以實現有效的RLHF規模化。與現有的RLHF框架不同,這些框架將四個模型放置在同一個GPU上,OpenRLHF通過使用Ray、vLLM和DeepSpeed重新設計模型的排程,從而克服了超過70B參數的挑戰,並利用了改進的資源利用率和多樣的訓練方法。OpenRLHF與Hugging Face無縫集成,提供了一個開箱即用的解決方案,具有優化的算法和啟動腳本,確保了用戶友好性。OpenRLHF實現了RLHF、DPO、拒絕採樣和其他對齊技術。作為最先進的LLM開發工具,OpenRLHF的代碼可在https://github.com/OpenLLMAI/OpenRLHF 上找到。
隨著基礎大型語言模型(LLM)的參數高效適應越來越多,我們需要研究是否可以重複使用這些訓練過的適配器來提高新任務的性能。我們研究如何在給定多任務數據的情況下最佳地構建適配器庫,並通過在該庫中進行路由來設計零-shot和監督任務泛化的技術。我們對構建此庫的現有方法進行基準測試,並引入基於模型的聚類(MBC)方法,該方法根據適配器參數的相似性對任務進行分組,間接優化跨多任務數據集的轉移。為了重複使用這個庫,我們提出了一種新穎的零-shot路由機制Arrow,它能夠動態選擇最相關的適配器來處理新輸入,而無需重新訓練。我們在多個LLM上進行實驗,如Phi-2和Mistral,在廣泛的保留任務上進行驗證,證實基於MBC的適配器和Arrow路由能夠更好地泛化到新任務。我們朝著創建模塊化、適應性強的LLM邁出了一步,這種模型可以與傳統聯合訓練相匹敵或超越。
透過運用大型語言模型(LLMs)的能力,最近的大型多模型模型(LMMs)展現了在開放世界多模式理解中的卓越多樣性。然而,它們通常具有大量參數和高計算密集度,因此限制了它們在資源受限情況下的應用。為此,已經連續提出了幾種輕量級LMMs,以在受限規模(例如3B)下最大化能力。儘管這些方法取得了令人鼓舞的成果,但大多數方法僅專注於設計空間的一兩個方面,並且影響模型能力的關鍵設計選擇尚未得到深入研究。在本文中,我們從模型架構、訓練策略和訓練數據等方面對輕量級LMMs進行系統研究。根據我們的研究結果,我們獲得了Imp - 一系列在2B-4B規模下非常有能力的LMMs。值得注意的是,我們的Imp-3B模型穩定地優於所有現有相同大小的輕量級LMMs,甚至超越了13B規模的最新技術。通過低位量化和分辨率降低技術,我們的Imp模型可以部署在高通驍龍8Gen3移動芯片上,推理速度約為每秒13個標記。
基於多樣機器人數據集預訓練的大型策略具有改變機器人學習的潛力:不需從頭訓練新策略,這種通用機器人策略僅需少量領域內數據進行微調,就能廣泛泛化。然而,為了在各種機器人學習場景、環境和任務中廣泛應用,這些策略需要處理多樣的感測器和動作空間,適應各種常用的機器人平台,並且能夠快速有效地在新領域進行微調。在這項工作中,我們旨在為開發開源、廣泛應用的通用機器人操作策略奠定基礎。作為第一步,我們介紹了Octo,這是一個基於大型Transformer策略,從迄今為止最大的機器人操作數據集Open X-Embodiment數據集的800k條軌跡中訓練而成。它可以通過語言命令或目標圖像進行指導,並且可以在標準消費級GPU上在幾小時內有效地對具有新感測輸入和動作空間的機器人設置進行微調。在9個機器人平台的實驗中,我們展示了Octo作為一個多才多藝的策略初始化,可以有效地微調為新的觀察和動作空間。我們還對Octo模型的設計決策進行了詳細的消融分析,從架構到訓練數據,以指導未來建立通用機器人模型的研究。
Transformer已成為自然語言和計算機視覺任務的基礎架構。然而,高計算成本使其在資源受限的設備上部署變得相當具挑戰性。本文研究了高效Transformer的計算瓶頸模塊,即標準化層和注意力模塊。LayerNorm通常用於Transformer架構,但由於推論期間的統計計算,並不計算友好。然而,在Transformer中用更高效的BatchNorm替換LayerNorm通常會導致性能下降和訓練崩潰。為了解決這個問題,我們提出了一種名為PRepBN的新方法,在訓練過程中逐步用重新參數化的BatchNorm替換LayerNorm。此外,我們提出了一個簡化的線性注意力(SLA)模塊,簡單而有效地實現強大性能。對圖像分類和物體檢測的大量實驗證明了我們提出方法的有效性。例如,我們的SLAB-Swin在ImageNet-1K上獲得了83.6%的top-1準確率,延遲為16.2ms,比Flatten-Swin低2.4ms,準確率高0.1%。我們還對我們的方法進行了語言建模任務的評估,獲得了可比的性能和更低的延遲。代碼可在以下鏈接公開獲取:https://github.com/xinghaochen/SLAB 和 https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB。
在這份工作中,我們提出了一種新穎的軌跡分數匹配(TSM)方法,旨在解決使用去噪擴散隱式模型(DDIM)反演過程時,由於區間分數匹配(ISM)中的累積誤差而引起的虛假地面真實性不一致問題。與ISM採用DDIM的反演過程在單一路徑上進行計算不同,我們的TSM方法利用DDIM的反演過程從同一起點生成兩條路徑進行計算。由於兩條路徑均起於同一起點,TSM相較於ISM能夠減少累積誤差,從而緩解虛假地面真實性不一致的問題。TSM增強了模型在蒸餾過程中生成路徑的穩定性和一致性。我們通過實驗證明了這一點,並進一步表明ISM是TSM的一種特殊情況。此外,為了優化從高分辨率文本到3D生成的當前多階段優化過程,我們採用了穩定擴散XL進行引導。為應對在使用穩定擴散XL時,由於3D高斯擴散過程中不穩定梯度而引起的異常複製和分裂問題,我們提出了一種逐像素梯度截斷方法。大量實驗表明,我們的模型在視覺質量和性能方面顯著優於最先進的模型。程式碼:https://github.com/xingy038/Dreamer-XL。