ChatPaper.aiChatPaper

PixArt-Σ: Addestramento da Debole a Forte del Trasformatore di Diffusione per la Generazione di Immagini 4K da Testo

PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

March 7, 2024
Autori: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI

Abstract

In questo articolo, presentiamo PixArt-Σ, un modello di Diffusion Transformer (DiT) in grado di generare direttamente immagini in risoluzione 4K. PixArt-Σ rappresenta un significativo progresso rispetto al suo predecessore, PixArt-α, offrendo immagini di qualità notevolmente superiore e un migliore allineamento con i prompt testuali. Una caratteristica chiave di PixArt-Σ è la sua efficienza di addestramento. Sfruttando il pre-addestramento di base di PixArt-α, evolve da una baseline "più debole" a un modello "più forte" attraverso l'incorporazione di dati di qualità superiore, un processo che definiamo "addestramento da debole a forte". I progressi di PixArt-Σ sono duplici: (1) Dati di Addestramento di Alta Qualità: PixArt-Σ incorpora dati immagine di qualità superiore, abbinati a didascalie più precise e dettagliate. (2) Compressione Efficiente dei Token: proponiamo un nuovo modulo di attenzione all'interno del framework DiT che comprime sia le chiavi che i valori, migliorando significativamente l'efficienza e facilitando la generazione di immagini in ultra-alta risoluzione. Grazie a questi miglioramenti, PixArt-Σ raggiunge una qualità dell'immagine superiore e una migliore aderenza ai prompt dell'utente con una dimensione del modello significativamente più piccola (0,6 miliardi di parametri) rispetto ai modelli di diffusione testo-immagine esistenti, come SDXL (2,6 miliardi di parametri) e SD Cascade (5,1 miliardi di parametri). Inoltre, la capacità di PixArt-Σ di generare immagini 4K supporta la creazione di poster e sfondi ad alta risoluzione, rafforzando efficientemente la produzione di contenuti visivi di alta qualità in settori come il cinema e i videogiochi.
English
In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer model~(DiT) capable of directly generating images at 4K resolution. PixArt-\Sigma represents a significant advancement over its predecessor, PixArt-\alpha, offering images of markedly higher fidelity and improved alignment with text prompts. A key feature of PixArt-\Sigma is its training efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it evolves from the `weaker' baseline to a `stronger' model via incorporating higher quality data, a process we term "weak-to-strong training". The advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data: PixArt-\Sigma incorporates superior-quality image data, paired with more precise and detailed image captions. (2) Efficient Token Compression: we propose a novel attention module within the DiT framework that compresses both keys and values, significantly improving efficiency and facilitating ultra-high-resolution image generation. Thanks to these improvements, PixArt-\Sigma achieves superior image quality and user prompt adherence capabilities with significantly smaller model size (0.6B parameters) than existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K images supports the creation of high-resolution posters and wallpapers, efficiently bolstering the production of high-quality visual content in industries such as film and gaming.
PDF401February 7, 2026