PixArt-α: Entrenamiento Rápido de Transformadores de Difusión para Síntesis Fotorrealista de Imágenes a partir de Texto
PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
September 30, 2023
Autores: Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie1, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
Resumen
Los modelos más avanzados de texto a imagen (T2I) requieren costos de entrenamiento significativos (por ejemplo, millones de horas de GPU), lo que obstaculiza seriamente la innovación fundamental para la comunidad de AIGC (Generación de Contenido con Inteligencia Artificial) y aumenta las emisiones de CO2. Este artículo presenta PIXART-alpha, un modelo de difusión T2I basado en Transformers cuya calidad de generación de imágenes compite con los generadores de imágenes más avanzados (por ejemplo, Imagen, SDXL e incluso Midjourney), alcanzando estándares cercanos a aplicaciones comerciales. Además, soporta la síntesis de imágenes de alta resolución hasta 1024px con un bajo costo de entrenamiento, como se muestra en las Figuras 1 y 2. Para lograr este objetivo, se proponen tres diseños principales: (1) Descomposición de la estrategia de entrenamiento: Diseñamos tres pasos de entrenamiento distintos que optimizan por separado la dependencia de píxeles, la alineación texto-imagen y la calidad estética de la imagen; (2) Transformer T2I eficiente: Incorporamos módulos de atención cruzada en el Transformer de Difusión (DiT) para inyectar condiciones de texto y simplificar la rama intensiva en cómputo de condiciones de clase; (3) Datos altamente informativos: Enfatizamos la importancia de la densidad conceptual en pares texto-imagen y aprovechamos un gran modelo de Visión-Lenguaje para etiquetar automáticamente pseudo-leyendas densas que ayudan al aprendizaje de la alineación texto-imagen. Como resultado, la velocidad de entrenamiento de PIXART-alpha supera notablemente a los modelos T2I de gran escala existentes; por ejemplo, PIXART-alpha solo requiere el 10.8% del tiempo de entrenamiento de Stable Diffusion v1.5 (675 vs. 6,250 días de GPU A100), ahorrando casi \$300,000 (26,000 vs. \$320,000) y reduciendo un 90% las emisiones de CO2. Además, en comparación con un modelo SOTA más grande, RAPHAEL, nuestro costo de entrenamiento es apenas el 1%. Experimentos extensos demuestran que PIXART-alpha sobresale en calidad de imagen, arte y control semántico. Esperamos que PIXART-alpha brinde nuevas perspectivas a la comunidad de AIGC y a las startups para acelerar la construcción de sus propios modelos generativos de alta calidad y bajo costo desde cero.
English
The most advanced text-to-image (T2I) models require significant training
costs (e.g., millions of GPU hours), seriously hindering the fundamental
innovation for the AIGC community while increasing CO2 emissions. This paper
introduces PIXART-alpha, a Transformer-based T2I diffusion model whose image
generation quality is competitive with state-of-the-art image generators (e.g.,
Imagen, SDXL, and even Midjourney), reaching near-commercial application
standards. Additionally, it supports high-resolution image synthesis up to
1024px resolution with low training cost, as shown in Figure 1 and 2. To
achieve this goal, three core designs are proposed: (1) Training strategy
decomposition: We devise three distinct training steps that separately optimize
pixel dependency, text-image alignment, and image aesthetic quality; (2)
Efficient T2I Transformer: We incorporate cross-attention modules into
Diffusion Transformer (DiT) to inject text conditions and streamline the
computation-intensive class-condition branch; (3) High-informative data: We
emphasize the significance of concept density in text-image pairs and leverage
a large Vision-Language model to auto-label dense pseudo-captions to assist
text-image alignment learning. As a result, PIXART-alpha's training speed
markedly surpasses existing large-scale T2I models, e.g., PIXART-alpha only
takes 10.8% of Stable Diffusion v1.5's training time (675 vs. 6,250 A100 GPU
days), saving nearly \300,000 (26,000 vs. \320,000) and reducing 90% CO2
emissions. Moreover, compared with a larger SOTA model, RAPHAEL, our training
cost is merely 1%. Extensive experiments demonstrate that PIXART-\alpha
excels in image quality, artistry, and semantic control. We hope
PIXART-\alpha$ will provide new insights to the AIGC community and startups to
accelerate building their own high-quality yet low-cost generative models from
scratch.