ChatPaper.aiChatPaper

PIXART-δ: Geração Rápida e Controlável de Imagens com Modelos de Consistência Latente

PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

January 10, 2024
Autores: Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li
cs.AI

Resumo

Este relatório técnico apresenta o PIXART-{\delta}, um framework de síntese de texto para imagem que integra o Modelo de Consistência Latente (LCM) e o ControlNet ao avançado modelo PIXART-{\alpha}. O PIXART-{\alpha} é reconhecido por sua capacidade de gerar imagens de alta qualidade com resolução de 1024px por meio de um processo de treinamento notavelmente eficiente. A integração do LCM no PIXART-{\delta} acelera significativamente a velocidade de inferência, permitindo a produção de imagens de alta qualidade em apenas 2-4 passos. Notavelmente, o PIXART-{\delta} alcança um marco de 0,5 segundos para gerar imagens de 1024x1024 pixels, representando uma melhoria de 7x em relação ao PIXART-{\alpha}. Além disso, o PIXART-{\delta} foi projetado para ser eficientemente treinável em GPUs V100 de 32GB em um único dia. Com sua capacidade de inferência de 8 bits (von Platen et al., 2023), o PIXART-{\delta} pode sintetizar imagens de 1024px dentro de restrições de memória GPU de 8GB, aumentando consideravelmente sua usabilidade e acessibilidade. Adicionalmente, a incorporação de um módulo semelhante ao ControlNet permite um controle refinado sobre modelos de difusão de texto para imagem. Introduzimos uma nova arquitetura ControlNet-Transformer, especificamente adaptada para Transformers, alcançando controlabilidade explícita juntamente com a geração de imagens de alta qualidade. Como um modelo de geração de imagens de código aberto e estado da arte, o PIXART-{\delta} oferece uma alternativa promissora à família de modelos Stable Diffusion, contribuindo significativamente para a síntese de texto para imagem.
English
This technical report introduces PIXART-{\delta}, a text-to-image synthesis framework that integrates the Latent Consistency Model (LCM) and ControlNet into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its ability to generate high-quality images of 1024px resolution through a remarkably efficient training process. The integration of LCM in PIXART-{\delta} significantly accelerates the inference speed, enabling the production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta} achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images, marking a 7x improvement over the PIXART-{\alpha}. Additionally, PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs within a single day. With its 8-bit inference capability (von Platen et al., 2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory constraints, greatly enhancing its usability and accessibility. Furthermore, incorporating a ControlNet-like module enables fine-grained control over text-to-image diffusion models. We introduce a novel ControlNet-Transformer architecture, specifically tailored for Transformers, achieving explicit controllability alongside high-quality image generation. As a state-of-the-art, open-source image generation model, PIXART-{\delta} offers a promising alternative to the Stable Diffusion family of models, contributing significantly to text-to-image synthesis.
PDF494February 8, 2026