PIXART-δ: 잠재 일관성 모델을 통한 빠르고 제어 가능한 이미지 생성
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
January 10, 2024
저자: Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li
cs.AI
초록
본 기술 보고서는 고급 PIXART-{\alpha} 모델에 Latent Consistency Model(LCM)과 ControlNet을 통합한 텍스트-이미지 합성 프레임워크인 PIXART-{\delta}를 소개합니다. PIXART-{\alpha}는 매우 효율적인 학습 과정을 통해 1024px 해상도의 고품질 이미지를 생성하는 능력으로 잘 알려져 있습니다. PIXART-{\delta}에 LCM을 통합함으로써 추론 속도가 크게 가속화되어 단 2-4 단계만으로 고품질 이미지를 생성할 수 있게 되었습니다. 특히, PIXART-{\delta}는 1024x1024 픽셀 이미지를 생성하는 데 0.5초라는 획기적인 성과를 달성하며, 이는 PIXART-{\alpha} 대비 7배 향상된 수치입니다. 또한, PIXART-{\delta}는 단일 날짜 내에 32GB V100 GPU에서 효율적으로 학습할 수 있도록 설계되었습니다. 8비트 추론 기능(von Platen et al., 2023)을 통해 PIXART-{\delta}는 8GB GPU 메모리 제약 내에서도 1024px 이미지를 합성할 수 있어 사용성과 접근성이 크게 향상되었습니다. 더 나아가, ControlNet과 유사한 모듈을 통합함으로써 텍스트-이미지 확산 모델에 대한 세밀한 제어가 가능해졌습니다. 본 연구에서는 Transformer에 특화된 새로운 ControlNet-Transformer 아키텍처를 도입하여, 고품질 이미지 생성과 함께 명시적인 제어 가능성을 달성했습니다. 최첨단 오픈소스 이미지 생성 모델로서, PIXART-{\delta}는 Stable Diffusion 모델군에 대한 유망한 대안을 제시하며 텍스트-이미지 합성 분야에 크게 기여하고 있습니다.
English
This technical report introduces PIXART-{\delta}, a text-to-image synthesis
framework that integrates the Latent Consistency Model (LCM) and ControlNet
into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its
ability to generate high-quality images of 1024px resolution through a
remarkably efficient training process. The integration of LCM in
PIXART-{\delta} significantly accelerates the inference speed, enabling the
production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta}
achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images,
marking a 7x improvement over the PIXART-{\alpha}. Additionally,
PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs
within a single day. With its 8-bit inference capability (von Platen et al.,
2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory
constraints, greatly enhancing its usability and accessibility. Furthermore,
incorporating a ControlNet-like module enables fine-grained control over
text-to-image diffusion models. We introduce a novel ControlNet-Transformer
architecture, specifically tailored for Transformers, achieving explicit
controllability alongside high-quality image generation. As a state-of-the-art,
open-source image generation model, PIXART-{\delta} offers a promising
alternative to the Stable Diffusion family of models, contributing
significantly to text-to-image synthesis.