PixArt-α: Addestramento Rapido del Trasformatore a Diffusione per la Sintesi Fotorealistica di Immagini da Testo
PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
September 30, 2023
Autori: Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie1, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
Abstract
I modelli più avanzati di text-to-image (T2I) richiedono costi di addestramento significativi (ad esempio, milioni di ore GPU), ostacolando seriamente l'innovazione fondamentale per la comunità AIGC e aumentando le emissioni di CO2. Questo articolo introduce PIXART-alpha, un modello di diffusione T2I basato su Transformer la cui qualità di generazione delle immagini è competitiva con i generatori di immagini all'avanguardia (ad esempio, Imagen, SDXL e persino Midjourney), raggiungendo standard quasi commerciali. Inoltre, supporta la sintesi di immagini ad alta risoluzione fino a 1024px con un basso costo di addestramento, come mostrato nelle Figure 1 e 2. Per raggiungere questo obiettivo, vengono proposti tre design principali: (1) Scomposizione della strategia di addestramento: progettiamo tre passaggi di addestramento distinti che ottimizzano separatamente la dipendenza dei pixel, l'allineamento testo-immagine e la qualità estetica dell'immagine; (2) Efficiente Transformer T2I: incorporiamo moduli di cross-attention nel Diffusion Transformer (DiT) per iniettare condizioni testuali e semplificare il ramo computazionalmente intensivo delle condizioni di classe; (3) Dati altamente informativi: sottolineiamo l'importanza della densità concettuale nelle coppie testo-immagine e sfruttiamo un grande modello Vision-Language per auto-etichettare pseudo-didascalie dense per supportare l'apprendimento dell'allineamento testo-immagine. Di conseguenza, la velocità di addestramento di PIXART-alpha supera nettamente quella dei modelli T2I su larga scala esistenti, ad esempio, PIXART-alpha richiede solo il 10,8% del tempo di addestramento di Stable Diffusion v1.5 (675 vs. 6.250 giorni GPU A100), risparmiando quasi \300.000 (26.000 vs. \320.000) e riducendo del 90% le emissioni di CO2. Inoltre, rispetto a un modello SOTA più grande, RAPHAEL, il nostro costo di addestramento è solo l'1%. Esperimenti estesi dimostrano che PIXART-\alpha eccelle in qualità dell'immagine, artisticità e controllo semantico. Speriamo che PIXART-\alpha fornisca nuove intuizioni alla comunità AIGC e alle startup per accelerare la costruzione dei propri modelli generativi di alta qualità ma a basso costo da zero.
English
The most advanced text-to-image (T2I) models require significant training
costs (e.g., millions of GPU hours), seriously hindering the fundamental
innovation for the AIGC community while increasing CO2 emissions. This paper
introduces PIXART-alpha, a Transformer-based T2I diffusion model whose image
generation quality is competitive with state-of-the-art image generators (e.g.,
Imagen, SDXL, and even Midjourney), reaching near-commercial application
standards. Additionally, it supports high-resolution image synthesis up to
1024px resolution with low training cost, as shown in Figure 1 and 2. To
achieve this goal, three core designs are proposed: (1) Training strategy
decomposition: We devise three distinct training steps that separately optimize
pixel dependency, text-image alignment, and image aesthetic quality; (2)
Efficient T2I Transformer: We incorporate cross-attention modules into
Diffusion Transformer (DiT) to inject text conditions and streamline the
computation-intensive class-condition branch; (3) High-informative data: We
emphasize the significance of concept density in text-image pairs and leverage
a large Vision-Language model to auto-label dense pseudo-captions to assist
text-image alignment learning. As a result, PIXART-alpha's training speed
markedly surpasses existing large-scale T2I models, e.g., PIXART-alpha only
takes 10.8% of Stable Diffusion v1.5's training time (675 vs. 6,250 A100 GPU
days), saving nearly \300,000 (26,000 vs. \320,000) and reducing 90% CO2
emissions. Moreover, compared with a larger SOTA model, RAPHAEL, our training
cost is merely 1%. Extensive experiments demonstrate that PIXART-\alpha
excels in image quality, artistry, and semantic control. We hope
PIXART-\alpha$ will provide new insights to the AIGC community and startups to
accelerate building their own high-quality yet low-cost generative models from
scratch.