PIXART-δ : Génération d'images rapide et contrôlable avec des modèles de cohérence latente
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
January 10, 2024
Auteurs: Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li
cs.AI
Résumé
Ce rapport technique présente PIXART-{\delta}, un cadre de synthèse d'images à partir de texte qui intègre le Latent Consistency Model (LCM) et ControlNet dans le modèle avancé PIXART-{\alpha}. PIXART-{\alpha} est reconnu pour sa capacité à générer des images de haute qualité avec une résolution de 1024px grâce à un processus d'entraînement remarquablement efficace. L'intégration du LCM dans PIXART-{\delta} accélère considérablement la vitesse d'inférence, permettant la production d'images de haute qualité en seulement 2 à 4 étapes. Notamment, PIXART-{\delta} réalise une percée en générant des images de 1024x1024 pixels en 0,5 seconde, marquant une amélioration de 7x par rapport à PIXART-{\alpha}. De plus, PIXART-{\delta} est conçu pour être efficacement entraîné sur des GPU V100 de 32GB en une seule journée. Avec sa capacité d'inférence en 8 bits (von Platen et al., 2023), PIXART-{\delta} peut synthétiser des images de 1024px dans des contraintes de mémoire GPU de 8GB, améliorant grandement son utilité et son accessibilité. Par ailleurs, l'intégration d'un module similaire à ControlNet permet un contrôle fin des modèles de diffusion de texte à image. Nous introduisons une nouvelle architecture ControlNet-Transformer, spécialement conçue pour les Transformers, atteignant une contrôlabilité explicite tout en générant des images de haute qualité. En tant que modèle de génération d'images open-source de pointe, PIXART-{\delta} offre une alternative prometteuse à la famille de modèles Stable Diffusion, contribuant de manière significative à la synthèse d'images à partir de texte.
English
This technical report introduces PIXART-{\delta}, a text-to-image synthesis
framework that integrates the Latent Consistency Model (LCM) and ControlNet
into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its
ability to generate high-quality images of 1024px resolution through a
remarkably efficient training process. The integration of LCM in
PIXART-{\delta} significantly accelerates the inference speed, enabling the
production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta}
achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images,
marking a 7x improvement over the PIXART-{\alpha}. Additionally,
PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs
within a single day. With its 8-bit inference capability (von Platen et al.,
2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory
constraints, greatly enhancing its usability and accessibility. Furthermore,
incorporating a ControlNet-like module enables fine-grained control over
text-to-image diffusion models. We introduce a novel ControlNet-Transformer
architecture, specifically tailored for Transformers, achieving explicit
controllability alongside high-quality image generation. As a state-of-the-art,
open-source image generation model, PIXART-{\delta} offers a promising
alternative to the Stable Diffusion family of models, contributing
significantly to text-to-image synthesis.