PixArt-Σ: Addestramento da Debole a Forte del Trasformatore di Diffusione per la Generazione di Immagini 4K da Testo
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
March 7, 2024
Autori: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
Abstract
In questo articolo, presentiamo PixArt-Σ, un modello di Diffusion Transformer (DiT) in grado di generare direttamente immagini in risoluzione 4K. PixArt-Σ rappresenta un significativo progresso rispetto al suo predecessore, PixArt-α, offrendo immagini di qualità notevolmente superiore e un migliore allineamento con i prompt testuali. Una caratteristica chiave di PixArt-Σ è la sua efficienza di addestramento. Sfruttando il pre-addestramento di base di PixArt-α, evolve da una baseline "più debole" a un modello "più forte" attraverso l'incorporazione di dati di qualità superiore, un processo che definiamo "addestramento da debole a forte". I progressi di PixArt-Σ sono duplici: (1) Dati di Addestramento di Alta Qualità: PixArt-Σ incorpora dati immagine di qualità superiore, abbinati a didascalie più precise e dettagliate. (2) Compressione Efficiente dei Token: proponiamo un nuovo modulo di attenzione all'interno del framework DiT che comprime sia le chiavi che i valori, migliorando significativamente l'efficienza e facilitando la generazione di immagini in ultra-alta risoluzione. Grazie a questi miglioramenti, PixArt-Σ raggiunge una qualità dell'immagine superiore e una migliore aderenza ai prompt dell'utente con una dimensione del modello significativamente più piccola (0,6 miliardi di parametri) rispetto ai modelli di diffusione testo-immagine esistenti, come SDXL (2,6 miliardi di parametri) e SD Cascade (5,1 miliardi di parametri). Inoltre, la capacità di PixArt-Σ di generare immagini 4K supporta la creazione di poster e sfondi ad alta risoluzione, rafforzando efficientemente la produzione di contenuti visivi di alta qualità in settori come il cinema e i videogiochi.
English
In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer
model~(DiT) capable of directly generating images at 4K resolution.
PixArt-\Sigma represents a significant advancement over its predecessor,
PixArt-\alpha, offering images of markedly higher fidelity and improved
alignment with text prompts. A key feature of PixArt-\Sigma is its training
efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it
evolves from the `weaker' baseline to a `stronger' model via incorporating
higher quality data, a process we term "weak-to-strong training". The
advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data:
PixArt-\Sigma incorporates superior-quality image data, paired with more
precise and detailed image captions. (2) Efficient Token Compression: we
propose a novel attention module within the DiT framework that compresses both
keys and values, significantly improving efficiency and facilitating
ultra-high-resolution image generation. Thanks to these improvements,
PixArt-\Sigma achieves superior image quality and user prompt adherence
capabilities with significantly smaller model size (0.6B parameters) than
existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD
Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K
images supports the creation of high-resolution posters and wallpapers,
efficiently bolstering the production of high-quality visual content in
industries such as film and gaming.