PIXART-δ: Generazione Rapida e Controllabile di Immagini con Modelli di Consistenza Latente

Abstract

Questo rapporto tecnico introduce PIXART-{\delta}, un framework di sintesi da testo a immagine che integra il Latent Consistency Model (LCM) e ControlNet nel modello avanzato PIXART-{\alpha}. PIXART-{\alpha} è riconosciuto per la sua capacità di generare immagini di alta qualità con risoluzione di 1024px attraverso un processo di addestramento notevolmente efficiente. L'integrazione di LCM in PIXART-{\delta} accelera significativamente la velocità di inferenza, consentendo la produzione di immagini di alta qualità in soli 2-4 passi. In particolare, PIXART-{\delta} raggiunge un traguardo di 0,5 secondi per generare immagini di 1024x1024 pixel, segnando un miglioramento di 7 volte rispetto a PIXART-{\alpha}. Inoltre, PIXART-{\delta} è progettato per essere addestrabile in modo efficiente su GPU V100 da 32GB in un solo giorno. Con la sua capacità di inferenza a 8 bit (von Platen et al., 2023), PIXART-{\delta} può sintetizzare immagini di 1024px entro i limiti di memoria GPU di 8GB, migliorando notevolmente la sua usabilità e accessibilità. Inoltre, l'incorporazione di un modulo simile a ControlNet consente un controllo fine sui modelli di diffusione da testo a immagine. Introduciamo una nuova architettura ControlNet-Transformer, specificamente progettata per i Transformer, che raggiunge una controllabilità esplicita insieme a una generazione di immagini di alta qualità. Come modello open-source all'avanguardia per la generazione di immagini, PIXART-{\delta} offre una valida alternativa alla famiglia di modelli Stable Diffusion, contribuendo in modo significativo alla sintesi da testo a immagine.

English

This technical report introduces PIXART-{\delta}, a text-to-image synthesis framework that integrates the Latent Consistency Model (LCM) and ControlNet into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its ability to generate high-quality images of 1024px resolution through a remarkably efficient training process. The integration of LCM in PIXART-{\delta} significantly accelerates the inference speed, enabling the production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta} achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images, marking a 7x improvement over the PIXART-{\alpha}. Additionally, PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs within a single day. With its 8-bit inference capability (von Platen et al., 2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory constraints, greatly enhancing its usability and accessibility. Furthermore, incorporating a ControlNet-like module enables fine-grained control over text-to-image diffusion models. We introduce a novel ControlNet-Transformer architecture, specifically tailored for Transformers, achieving explicit controllability alongside high-quality image generation. As a state-of-the-art, open-source image generation model, PIXART-{\delta} offers a promising alternative to the Stable Diffusion family of models, contributing significantly to text-to-image synthesis.

PIXART-δ: Generazione Rapida e Controllabile di Immagini con Modelli di Consistenza Latente

PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

Abstract

Support