PixArt-α : Entraînement rapide de Transformateur de Diffusion pour la synthèse photoréaliste d'images à partir de texte
PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
September 30, 2023
papers.authors: Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie1, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
papers.abstract
Les modèles de texte-à-image (T2I) les plus avancés nécessitent des coûts d'entraînement considérables (par exemple, des millions d'heures de GPU), ce qui entrave sérieusement l'innovation fondamentale pour la communauté AIGC tout en augmentant les émissions de CO2. Cet article présente PIXART-alpha, un modèle de diffusion T2I basé sur des Transformers dont la qualité de génération d'images rivalise avec les générateurs d'images de pointe (par exemple, Imagen, SDXL, et même Midjourney), atteignant des standards proches de l'application commerciale. De plus, il prend en charge la synthèse d'images haute résolution jusqu'à 1024px avec un faible coût d'entraînement, comme illustré dans les Figures 1 et 2. Pour atteindre cet objectif, trois conceptions clés sont proposées : (1) Décomposition de la stratégie d'entraînement : Nous concevons trois étapes d'entraînement distinctes qui optimisent séparément la dépendance des pixels, l'alignement texte-image et la qualité esthétique de l'image ; (2) Transformer T2I efficace : Nous intégrons des modules d'attention croisée dans le Transformer de Diffusion (DiT) pour injecter des conditions textuelles et rationaliser la branche intensive en calculs conditionnée par classe ; (3) Données hautement informatives : Nous mettons l'accent sur l'importance de la densité conceptuelle dans les paires texte-image et exploitons un grand modèle Vision-Langage pour auto-étiqueter des pseudo-légendes denses afin d'aider l'apprentissage de l'alignement texte-image. En conséquence, la vitesse d'entraînement de PIXART-alpha dépasse nettement celle des modèles T2I à grande échelle existants, par exemple, PIXART-alpha ne prend que 10,8 % du temps d'entraînement de Stable Diffusion v1.5 (675 contre 6 250 jours de GPU A100), économisant près de 300 000 $ (26 000 $ contre 320 000 $) et réduisant de 90 % les émissions de CO2. De plus, par rapport à un modèle SOTA plus volumineux, RAPHAEL, notre coût d'entraînement n'est que de 1 %. Des expériences approfondies démontrent que PIXART-alpha excelle en termes de qualité d'image, d'artistique et de contrôle sémantique. Nous espérons que PIXART-alpha fournira de nouvelles perspectives à la communauté AIGC et aux startups pour accélérer la construction de leurs propres modèles génératifs de haute qualité mais à faible coût, à partir de zéro.
English
The most advanced text-to-image (T2I) models require significant training
costs (e.g., millions of GPU hours), seriously hindering the fundamental
innovation for the AIGC community while increasing CO2 emissions. This paper
introduces PIXART-alpha, a Transformer-based T2I diffusion model whose image
generation quality is competitive with state-of-the-art image generators (e.g.,
Imagen, SDXL, and even Midjourney), reaching near-commercial application
standards. Additionally, it supports high-resolution image synthesis up to
1024px resolution with low training cost, as shown in Figure 1 and 2. To
achieve this goal, three core designs are proposed: (1) Training strategy
decomposition: We devise three distinct training steps that separately optimize
pixel dependency, text-image alignment, and image aesthetic quality; (2)
Efficient T2I Transformer: We incorporate cross-attention modules into
Diffusion Transformer (DiT) to inject text conditions and streamline the
computation-intensive class-condition branch; (3) High-informative data: We
emphasize the significance of concept density in text-image pairs and leverage
a large Vision-Language model to auto-label dense pseudo-captions to assist
text-image alignment learning. As a result, PIXART-alpha's training speed
markedly surpasses existing large-scale T2I models, e.g., PIXART-alpha only
takes 10.8% of Stable Diffusion v1.5's training time (675 vs. 6,250 A100 GPU
days), saving nearly \300,000 (26,000 vs. \320,000) and reducing 90% CO2
emissions. Moreover, compared with a larger SOTA model, RAPHAEL, our training
cost is merely 1%. Extensive experiments demonstrate that PIXART-\alpha
excels in image quality, artistry, and semantic control. We hope
PIXART-\alpha$ will provide new insights to the AIGC community and startups to
accelerate building their own high-quality yet low-cost generative models from
scratch.