PixArt-Σ : Entraînement de faible à fort d'un transformateur de diffusion pour la génération d'images 4K à partir de texte
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
March 7, 2024
Auteurs: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
Résumé
Dans cet article, nous présentons PixArt-\Sigma, un modèle de Transformer de Diffusion (DiT) capable de générer directement des images en résolution 4K. PixArt-\Sigma représente une avancée significative par rapport à son prédécesseur, PixArt-\alpha, en offrant des images d'une fidélité nettement supérieure et un meilleur alignement avec les prompts textuels. Une caractéristique clé de PixArt-\Sigma est son efficacité en matière d'entraînement. En s'appuyant sur le pré-entraînement fondamental de PixArt-\alpha, il évolue d'un modèle de base "plus faible" vers un modèle "plus fort" en incorporant des données de meilleure qualité, un processus que nous appelons "entraînement de faible à fort". Les avancées de PixArt-\Sigma sont doubles : (1) Données d'entraînement de haute qualité : PixArt-\Sigma intègre des données d'images de qualité supérieure, associées à des légendes d'images plus précises et détaillées. (2) Compression efficace des tokens : nous proposons un nouveau module d'attention dans le cadre DiT qui compresse à la fois les clés et les valeurs, améliorant significativement l'efficacité et facilitant la génération d'images en ultra-haute résolution. Grâce à ces améliorations, PixArt-\Sigma atteint une qualité d'image supérieure et une meilleure adhésion aux prompts utilisateur avec une taille de modèle significativement plus petite (0,6 milliard de paramètres) que les modèles de diffusion texte-image existants, tels que SDXL (2,6 milliards de paramètres) et SD Cascade (5,1 milliards de paramètres). De plus, la capacité de PixArt-\Sigma à générer des images 4K soutient la création d'affiches et de fonds d'écran haute résolution, renforçant efficacement la production de contenu visuel de haute qualité dans des industries telles que le cinéma et le jeu vidéo.
English
In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer
model~(DiT) capable of directly generating images at 4K resolution.
PixArt-\Sigma represents a significant advancement over its predecessor,
PixArt-\alpha, offering images of markedly higher fidelity and improved
alignment with text prompts. A key feature of PixArt-\Sigma is its training
efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it
evolves from the `weaker' baseline to a `stronger' model via incorporating
higher quality data, a process we term "weak-to-strong training". The
advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data:
PixArt-\Sigma incorporates superior-quality image data, paired with more
precise and detailed image captions. (2) Efficient Token Compression: we
propose a novel attention module within the DiT framework that compresses both
keys and values, significantly improving efficiency and facilitating
ultra-high-resolution image generation. Thanks to these improvements,
PixArt-\Sigma achieves superior image quality and user prompt adherence
capabilities with significantly smaller model size (0.6B parameters) than
existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD
Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K
images supports the creation of high-resolution posters and wallpapers,
efficiently bolstering the production of high-quality visual content in
industries such as film and gaming.