PixArt-Σ: Entrenamiento de Débil a Fuerte del Transformer de Difusión para la Generación de Imágenes 4K a partir de Texto
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
March 7, 2024
Autores: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
Resumen
En este artículo, presentamos PixArt-Σ, un modelo de Transformador de Difusión (DiT) capaz de generar imágenes directamente en resolución 4K. PixArt-Σ representa un avance significativo respecto a su predecesor, PixArt-α, ofreciendo imágenes con una fidelidad notablemente mayor y una mejor alineación con las indicaciones de texto. Una característica clave de PixArt-Σ es su eficiencia en el entrenamiento. Aprovechando el pre-entrenamiento fundamental de PixArt-α, evoluciona desde una línea base "más débil" hacia un modelo "más fuerte" mediante la incorporación de datos de mayor calidad, un proceso que denominamos "entrenamiento de débil a fuerte". Los avances en PixArt-Σ son dobles: (1) Datos de Entrenamiento de Alta Calidad: PixArt-Σ incorpora datos de imagen de calidad superior, emparejados con descripciones de imagen más precisas y detalladas. (2) Compresión Eficiente de Tokens: proponemos un nuevo módulo de atención dentro del marco DiT que comprime tanto claves como valores, mejorando significativamente la eficiencia y facilitando la generación de imágenes en ultra alta resolución. Gracias a estas mejoras, PixArt-Σ logra una calidad de imagen superior y una mejor adherencia a las indicaciones del usuario con un tamaño de modelo significativamente menor (0.6 mil millones de parámetros) en comparación con los modelos de difusión de texto a imagen existentes, como SDXL (2.6 mil millones de parámetros) y SD Cascade (5.1 mil millones de parámetros). Además, la capacidad de PixArt-Σ para generar imágenes en 4K respalda la creación de pósteres y fondos de pantalla de alta resolución, impulsando eficientemente la producción de contenido visual de alta calidad en industrias como el cine y los videojuegos.
English
In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer
model~(DiT) capable of directly generating images at 4K resolution.
PixArt-\Sigma represents a significant advancement over its predecessor,
PixArt-\alpha, offering images of markedly higher fidelity and improved
alignment with text prompts. A key feature of PixArt-\Sigma is its training
efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it
evolves from the `weaker' baseline to a `stronger' model via incorporating
higher quality data, a process we term "weak-to-strong training". The
advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data:
PixArt-\Sigma incorporates superior-quality image data, paired with more
precise and detailed image captions. (2) Efficient Token Compression: we
propose a novel attention module within the DiT framework that compresses both
keys and values, significantly improving efficiency and facilitating
ultra-high-resolution image generation. Thanks to these improvements,
PixArt-\Sigma achieves superior image quality and user prompt adherence
capabilities with significantly smaller model size (0.6B parameters) than
existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD
Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K
images supports the creation of high-resolution posters and wallpapers,
efficiently bolstering the production of high-quality visual content in
industries such as film and gaming.