PIXART-δ: 潜在一貫性モデルによる高速で制御可能な画像生成
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
January 10, 2024
著者: Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li
cs.AI
要旨
本技術レポートでは、Latent Consistency Model(LCM)とControlNetを先進的なPIXART-{\alpha}モデルに統合したテキストから画像を生成するフレームワーク、PIXART-{\delta}を紹介します。PIXART-{\alpha}は、1024px解像度の高品質な画像を非常に効率的なトレーニングプロセスで生成する能力で知られています。PIXART-{\delta}にLCMを統合することで、推論速度が大幅に向上し、わずか2~4ステップで高品質な画像を生成できるようになりました。特に、PIXART-{\delta}は1024x1024ピクセルの画像を0.5秒で生成するというブレークスルーを達成し、PIXART-{\alpha}と比較して7倍の改善を実現しています。さらに、PIXART-{\delta}は32GBのV100 GPUで1日以内に効率的にトレーニング可能な設計となっています。8ビット推論機能(von Platen et al., 2023)を備えており、8GBのGPUメモリ制約下でも1024pxの画像を合成できるため、ユーザビリティとアクセシビリティが大幅に向上しています。また、ControlNetに似たモジュールを組み込むことで、テキストから画像への拡散モデルに対するきめ細かい制御が可能になります。本論文では、Transformerに特化した新しいControlNet-Transformerアーキテクチャを導入し、高品質な画像生成とともに明示的な制御性を実現しています。最先端のオープンソース画像生成モデルとして、PIXART-{\delta}はStable Diffusionファミリーのモデルに代わる有望な選択肢を提供し、テキストから画像を生成する技術に大きく貢献しています。
English
This technical report introduces PIXART-{\delta}, a text-to-image synthesis
framework that integrates the Latent Consistency Model (LCM) and ControlNet
into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its
ability to generate high-quality images of 1024px resolution through a
remarkably efficient training process. The integration of LCM in
PIXART-{\delta} significantly accelerates the inference speed, enabling the
production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta}
achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images,
marking a 7x improvement over the PIXART-{\alpha}. Additionally,
PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs
within a single day. With its 8-bit inference capability (von Platen et al.,
2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory
constraints, greatly enhancing its usability and accessibility. Furthermore,
incorporating a ControlNet-like module enables fine-grained control over
text-to-image diffusion models. We introduce a novel ControlNet-Transformer
architecture, specifically tailored for Transformers, achieving explicit
controllability alongside high-quality image generation. As a state-of-the-art,
open-source image generation model, PIXART-{\delta} offers a promising
alternative to the Stable Diffusion family of models, contributing
significantly to text-to-image synthesis.