每日精選AI研究論文及翻譯
最近一直在加速擴散模型生成的過程中取得了顯著進展的一致性模型(CM)。然而,對於在潛在空間中進行高解析度、以文本為條件的圖像生成(又稱為LCM),其應用仍然不盡滿意。在本文中,我們確定了LCM目前設計中的三個關鍵缺陷。我們調查了這些限制背後的原因,並提出了階段性一致性模型(PCM),該模型擴展了設計空間並解決了所有已確定的限制。我們的評估表明,在1-16步生成設置中,PCM明顯優於LCM。雖然PCM專門設計用於多步細化,但其甚至實現了比先前最先進的專門設計的1步方法更優越或可比的1步生成結果。此外,我們展示了PCM的方法論是多才多藝的,適用於視頻生成,使我們能夠訓練最先進的少步文本到視頻生成器。更多詳細信息請參見https://g-u-n.github.io/projects/pcm/。
隨著深度神經網絡(DNNs)的規模和複雜性不斷增長,往往超出單個加速器的內存容量,需要將模型參數分片到多個加速器上。管道並行是訓練大型DNNs常用的分片策略。然而,目前管道並行的實現卻因機器學習框架提供的自動微分工具而意外形成瓶頸。本文介紹了2階段反向傳播(2BP)。通過將反向傳播步驟分為兩個獨立階段,我們可以減少閒置計算時間。我們在各種模型架構和管道排程上測試了2BP,在所有情況下均實現了吞吐量的增加。使用2BP,我們在訓練具有70億參數的類LLaMa變壓器時,跨4個GPU實現了與傳統方法相比吞吐量增加了1.70倍的效果。
最近在文本轉音樂編輯方面取得的進展,利用文本查詢來修改音樂(例如通過改變風格或調整樂器元件),為AI輔助音樂創作帶來獨特的挑戰和機遇。在這個領域中先前的方法受限於需要從頭開始訓練特定的編輯模型,這既耗費資源又低效;其他研究則使用大型語言模型來預測編輯後的音樂,導致音頻重建不精確。為了結合優勢並解決這些限制,我們提出了Instruct-MusicGen,一種新穎的方法,通過微調預訓練的MusicGen模型,以有效地遵循編輯指令,如添加、刪除或分離音軌。我們的方法涉及對原始MusicGen架構的修改,包括一個文本融合模組和一個音頻融合模組,這兩個模組使模型能夠同時處理指令文本和音頻輸入,並產生所需的編輯後音樂。值得注意的是,Instruct-MusicGen只向原始MusicGen模型引入了8%的新參數,並且僅訓練了5K步,但在所有任務上均表現優異,優於現有基準,並且展示出與針對特定任務訓練的模型相當的性能。這一進展不僅提高了文本轉音樂編輯的效率,還擴大了音樂語言模型在動態音樂製作環境中的應用範圍。
Yuan 2.0-M32採用了與Yuan-2.0 2B相似的基礎架構,採用了包含32位專家的專家混合架構,其中有2位專家處於活躍狀態。提出並採用了一種新的路由器網絡,即Attention Router,以更有效地選擇專家,這使準確度比具有傳統路由器網絡的模型提高了3.8%。Yuan 2.0-M32從頭開始使用了來自2000B tokens的訓練數據,而訓練計算消耗僅為相同參數規模下密集模型的9.25%。Yuan 2.0-M32在編碼、數學和各種專業領域展現出競爭力,其中活躍參數僅有40B總參數的3.7B,每個token的前向計算為7.4 GFlops,這兩者僅為Llama3-70B的1/19。Yuan 2.0-M32在MATH和ARC-Challenge基準測試上超越了Llama3-70B,準確度分別為55.89和95.8。Yuan 2.0-M32的模型和源代碼已在Github上釋出。
現代大型語言模型(LLMs)在解決自然語言處理、複雜推理、情感分析等任務方面的能力非凡,這促使它們被廣泛採用。不幸的是,這些能力伴隨著非常高的記憶和計算成本,使得大多數硬件平台無法使用LLMs。為了緩解這一問題,我們提出了一種有效的方法,基於LLaMA2-7B使用一次NAS來找到帕累托最優網絡架構。具體來說,我們僅對LLaMA2-7B進行微調一次,然後應用基於遺傳算法的搜索來找到更小、計算複雜度更低的網絡架構。我們展示了對於某些標準基準任務,預訓練的LLaMA2-7B網絡是不必要的大和複雜。更具體地,我們展示了在某些任務中模型大小減少1.5倍,吞吐量加快1.3倍,而精度幾乎不下降。除了找到更小、性能更高的網絡架構外,我們的方法比某些剪枝或稀疏化技術更有效和高效地實現了這一目標。最後,我們展示了量化如何與我們的方法互補,並且我們發現的網絡的大小和複雜度可以通過量化進一步減少。我們相信我們的工作提供了一種自動創建LLMs的方法,可以在成本更低、更容易獲得的硬件平台上使用。
從視頻輸入中重建4D場景是一項至關重要但具有挑戰性的任務。傳統方法通常依賴多視角視頻輸入的假設、已知相機參數或靜態場景,而這些通常在野外環境中是缺失的。在本文中,我們放寬了所有這些限制,並處理了一個非常雄心勃勃但實際的任務,我們稱之為AnyV4D:我們僅假設有一個單眼視頻可用,沒有任何相機參數作為輸入,並且我們的目標是恢復動態4D世界以及相機姿勢。為此,我們引入了GFlow,一個新的框架,僅利用2D先驗(深度和光流)將視頻(3D)提升到4D明確表示,其中包括通過空間和時間的高斯擴散流。GFlow首先將場景分為靜止部分和移動部分,然後應用一個順序優化過程,基於2D先驗和場景分類來優化相機姿勢和3D高斯點的動態,確保鄰近點之間的保真度以及跨幀的平滑運動。由於動態場景總是引入新內容,我們還提出了一種新的面向像素的高斯點密集化策略,以整合新的視覺內容。此外,GFlow超越了僅僅4D重建的界限;它還實現了對任何點在幀之間的跟踪,無需事先訓練,並以非監督的方式從場景中分割移動物體。此外,每幀的相機姿勢可以從GFlow中推導出,從而實現通過改變相機姿勢對視頻場景進行新視圖渲染。通過採用明確表示,我們可以根據需要輕鬆進行場景級或對象級編輯,突出其多功能性和強大性。請訪問我們的項目網站:https://littlepure2333.github.io/GFlow
近年來,大型語言模型(LLMs)已成為處理許多語言處理任務的強大工具。儘管取得成功,但訓練和微調這些模型仍然需要過多的計算和記憶體資源。本文中,我們確認並描述了實現梯度下降有效模型收斂所需的重要組件。在這個過程中,我們發現用於實現反向傳播的中間激活可以在不降低性能的情況下被過度壓縮。這個結果使我們提出了一種廉價且節省記憶體的算法,可用於LLMs的微調和預訓練。所提出的算法簡單地將標記分成較小的子標記,然後在前向傳播期間將它們投影到固定的一維子空間上。這些特徵然後在反向傳播期間粗略地重建以實現更新規則。我們確認我們的算法在VTAB-1k微調基準測試中作為許多最先進的PEFT方法的補充是有效的。此外,我們在LLaMA的微調中勝過QLoRA,並在大規模C4數據集上展現與其他節省記憶體的預訓練方法競爭性表現。
場景圖像編輯對於娛樂、攝影和廣告設計至關重要。現有方法僅專注於2D個別物件或3D全局場景編輯。這導致缺乏一種統一的方法來有效控制和操作不同粒度的3D場景。在這項工作中,我們提出了3DitScene,一種新穎且統一的場景編輯框架,利用語言引導的解耦高斯擴散,實現從2D到3D的無縫編輯,從而精確控制場景組成和個別物件。我們首先將通過生成先驗和優化技術進行改進的3D高斯結合到其中。然後,來自CLIP的語言特徵將語義引入3D幾何中,以進行物件解耦。通過解耦的高斯,3DitScene允許在全局和個別層面進行操作,徹底改變了創意表達方式,增強了對場景和物件的控制。實驗結果展示了3DitScene在場景圖像編輯中的有效性和多功能性。代碼和在線演示可在我們的項目主頁找到:https://zqh0253.github.io/3DitScene/。