每日精選AI研究論文及翻譯
目前最先進的文本到圖像(T2I)模型需要大量的訓練成本(例如,數百萬個GPU小時),嚴重阻礙了AIGC社區的基本創新,同時增加了二氧化碳排放。本文介紹了PIXART-alpha,一種基於Transformer的T2I擴散模型,其圖像生成質量與最先進的圖像生成器(例如Imagen、SDXL,甚至Midjourney)相媲美,達到接近商業應用標準。此外,它支持高分辨率圖像合成,最高可達1024像素分辨率,並具有低訓練成本,如圖1和2所示。為實現此目標,提出了三個核心設計:(1)訓練策略分解:我們設計了三個不同的訓練步驟,分別優化像素依賴性、文本-圖像對齊和圖像美學質量;(2)高效T2I Transformer:我們將交叉注意力模塊整合到擴散Transformer(DiT)中,以注入文本條件並簡化計算密集型的類別條件分支;(3)高信息數據:我們強調文本-圖像對中的概念密度的重要性,並利用大型視覺語言模型自動標記密集的虛擬標題,以幫助文本-圖像對齊學習。結果,PIXART-alpha的訓練速度明顯超過現有的大規模T2I模型,例如,PIXART-alpha僅需Stable Diffusion v1.5訓練時間的10.8%(675 vs. 6,250 A100 GPU天),節省近30萬美元(26,000 vs. 320,000美元),並減少90%的二氧化碳排放。此外,與更大的SOTA模型RAPHAEL相比,我們的訓練成本僅為1%。廣泛的實驗表明,PIXART-alpha在圖像質量、藝術性和語義控制方面表現卓越。我們希望PIXART-alpha能為AIGC社區和初創企業提供新的見解,加快從頭開始構建自己的高質量且低成本生成模型。
大型語言模型(LLMs)在開放式文本生成任務中展現出卓越的能力。然而,這些任務固有的開放性意味著模型回應的質量始終有改進的空間。為應對這一挑戰,提出了各種方法來增強LLMs的性能。越來越多的關注點集中在使LLMs能夠自我改進其回應質量上,從而減少對於收集多樣且高質量訓練數據的大量人工標註工作的依賴。最近,基於提示的方法在自我改進方法中得到廣泛探討,因其效果、效率和便利性。然而,這些方法通常需要明確且詳盡撰寫的指導方針作為LLMs的輸入。手動推導並提供所有必要的指導方針以實現真實世界複雜目標的改進(例如更有幫助且更少有害)是昂貴且具有挑戰性的。因此,我們提出了一個隱式自我改進(PIT)框架,該框架從人類偏好數據中隱式學習改進目標。PIT僅需要用於訓練獎勵模型的偏好數據,無需額外的人力。具體而言,我們重新制定了從人類反饋中的強化學習(RLHF)的訓練目標,而不是為了給定輸入最大化回應質量,我們最大化了條件於參考回應的回應質量差。通過這種方式,PIT在隱式訓練中具有更好地與人類偏好保持一致的改進目標。在兩個真實世界數據集和一個合成數據集上的實驗表明,我們的方法明顯優於基於提示的方法。
生成擴散模型為文本轉圖像生成提供強大的先驗知識,因此成為條件生成任務的基礎,如圖像編輯、修復和超分辨率。然而,擴散模型的一個主要限制是其較慢的採樣時間。為了應對這一挑戰,我們提出了一種新的條件蒸餾方法,旨在通過圖像條件來補充擴散先驗,從而實現僅需很少步驟的條件採樣。我們通過聯合學習直接在單個階段中蒸餾無條件預訓練,大大簡化了先前涉及分別進行蒸餾和條件微調的兩階段程序。此外,我們的方法實現了一種新的參數高效的蒸餾機制,僅通過少量額外參數與共享凍結的無條件骨幹進行任務蒸餾。跨多個任務的實驗,包括超分辨率、圖像編輯和深度轉圖像生成,證明了我們的方法在相同採樣時間下優於現有的蒸餾技術。值得注意的是,我們的方法是第一種能夠匹敵速度慢得多的精細調校條件擴散模型性能的蒸餾策略。