PIXART-δ: Schnelle und steuerbare Bildgenerierung mit Latent Consistency Models
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
January 10, 2024
Autoren: Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li
cs.AI
Zusammenfassung
Dieser technische Bericht stellt PIXART-{\delta} vor, ein Text-zu-Bild-Synthese-Framework, das das Latent Consistency Model (LCM) und ControlNet in das fortschrittliche PIXART-{\alpha}-Modell integriert. PIXART-{\alpha} ist bekannt für seine Fähigkeit, hochwertige Bilder mit einer Auflösung von 1024px durch einen äußerst effizienten Trainingsprozess zu erzeugen. Die Integration von LCM in PIXART-{\delta} beschleunigt die Inferenzgeschwindigkeit erheblich und ermöglicht die Erzeugung hochwertiger Bilder in nur 2-4 Schritten. Bemerkenswerterweise erreicht PIXART-{\delta} einen Durchbruch von 0,5 Sekunden für die Generierung von 1024x1024 Pixel-Bildern, was eine 7-fache Verbesserung gegenüber PIXART-{\alpha} darstellt. Darüber hinaus ist PIXART-{\delta} so konzipiert, dass es effizient auf 32GB V100 GPUs innerhalb eines Tages trainierbar ist. Mit seiner 8-Bit-Inferenzfähigkeit (von Platen et al., 2023) kann PIXART-{\delta} 1024px-Bilder innerhalb von 8GB GPU-Speicherbeschränkungen synthetisieren, was seine Nutzbarkeit und Zugänglichkeit erheblich verbessert. Die Einbindung eines ControlNet-ähnlichen Moduls ermöglicht eine fein abgestimmte Kontrolle über Text-zu-Bild-Diffusionsmodelle. Wir stellen eine neuartige ControlNet-Transformer-Architektur vor, die speziell für Transformer entwickelt wurde und explizite Steuerbarkeit zusammen mit hochwertiger Bildgenerierung erreicht. Als ein modernstes, quelloffenes Bildgenerierungsmodell bietet PIXART-{\delta} eine vielversprechende Alternative zur Stable-Diffusion-Modellfamilie und leistet einen bedeutenden Beitrag zur Text-zu-Bild-Synthese.
English
This technical report introduces PIXART-{\delta}, a text-to-image synthesis
framework that integrates the Latent Consistency Model (LCM) and ControlNet
into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its
ability to generate high-quality images of 1024px resolution through a
remarkably efficient training process. The integration of LCM in
PIXART-{\delta} significantly accelerates the inference speed, enabling the
production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta}
achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images,
marking a 7x improvement over the PIXART-{\alpha}. Additionally,
PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs
within a single day. With its 8-bit inference capability (von Platen et al.,
2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory
constraints, greatly enhancing its usability and accessibility. Furthermore,
incorporating a ControlNet-like module enables fine-grained control over
text-to-image diffusion models. We introduce a novel ControlNet-Transformer
architecture, specifically tailored for Transformers, achieving explicit
controllability alongside high-quality image generation. As a state-of-the-art,
open-source image generation model, PIXART-{\delta} offers a promising
alternative to the Stable Diffusion family of models, contributing
significantly to text-to-image synthesis.