PIXART-δ: Generación rápida y controlable de imágenes con modelos de consistencia latente
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
January 10, 2024
Autores: Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li
cs.AI
Resumen
Este informe técnico presenta PIXART-{\delta}, un marco de síntesis de texto a imagen que integra el Modelo de Consistencia Latente (LCM, por sus siglas en inglés) y ControlNet en el avanzado modelo PIXART-{\alpha}. PIXART-{\alpha} es reconocido por su capacidad para generar imágenes de alta calidad con una resolución de 1024px mediante un proceso de entrenamiento notablemente eficiente. La integración de LCM en PIXART-{\delta} acelera significativamente la velocidad de inferencia, permitiendo la producción de imágenes de alta calidad en tan solo 2-4 pasos. Es destacable que PIXART-{\delta} logra un avance significativo al generar imágenes de 1024x1024 píxeles en 0.5 segundos, lo que representa una mejora de 7 veces en comparación con PIXART-{\alpha}. Además, PIXART-{\delta} está diseñado para ser entrenado de manera eficiente en GPUs V100 de 32GB en un solo día. Con su capacidad de inferencia de 8 bits (von Platen et al., 2023), PIXART-{\delta} puede sintetizar imágenes de 1024px dentro de las limitaciones de memoria de GPU de 8GB, lo que mejora considerablemente su usabilidad y accesibilidad. Asimismo, la incorporación de un módulo similar a ControlNet permite un control detallado sobre los modelos de difusión de texto a imagen. Introducimos una nueva arquitectura ControlNet-Transformer, específicamente diseñada para Transformers, que logra una controlabilidad explícita junto con la generación de imágenes de alta calidad. Como un modelo de generación de imágenes de última generación y de código abierto, PIXART-{\delta} ofrece una alternativa prometedora a la familia de modelos Stable Diffusion, contribuyendo significativamente a la síntesis de texto a imagen.
English
This technical report introduces PIXART-{\delta}, a text-to-image synthesis
framework that integrates the Latent Consistency Model (LCM) and ControlNet
into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its
ability to generate high-quality images of 1024px resolution through a
remarkably efficient training process. The integration of LCM in
PIXART-{\delta} significantly accelerates the inference speed, enabling the
production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta}
achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images,
marking a 7x improvement over the PIXART-{\alpha}. Additionally,
PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs
within a single day. With its 8-bit inference capability (von Platen et al.,
2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory
constraints, greatly enhancing its usability and accessibility. Furthermore,
incorporating a ControlNet-like module enables fine-grained control over
text-to-image diffusion models. We introduce a novel ControlNet-Transformer
architecture, specifically tailored for Transformers, achieving explicit
controllability alongside high-quality image generation. As a state-of-the-art,
open-source image generation model, PIXART-{\delta} offers a promising
alternative to the Stable Diffusion family of models, contributing
significantly to text-to-image synthesis.