PIXART-δ: Быстрая и управляемая генерация изображений с использованием моделей латентной согласованности
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
January 10, 2024
Авторы: Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li
cs.AI
Аннотация
В данном техническом отчете представлен PIXART-{\delta} — фреймворк для синтеза изображений на основе текста, который интегрирует модель латентной согласованности (Latent Consistency Model, LCM) и ControlNet в усовершенствованную модель PIXART-{\alpha}. PIXART-{\alpha} известна своей способностью генерировать высококачественные изображения с разрешением 1024 пикселя благодаря исключительно эффективному процессу обучения. Интеграция LCM в PIXART-{\delta} значительно ускоряет скорость вывода, позволяя создавать высококачественные изображения всего за 2-4 шага. Примечательно, что PIXART-{\delta} достигает прорывного результата в 0,5 секунды для генерации изображений размером 1024x1024 пикселей, что в 7 раз быстрее, чем у PIXART-{\alpha}. Кроме того, PIXART-{\delta} разработан для эффективного обучения на GPU V100 с 32 ГБ памяти в течение одного дня. Благодаря возможности 8-битного вывода (von Platen et al., 2023), PIXART-{\delta} может синтезировать изображения с разрешением 1024 пикселя в условиях ограниченной памяти GPU в 8 ГБ, что значительно повышает его удобство и доступность. Дополнительно, внедрение модуля, подобного ControlNet, позволяет осуществлять детализированный контроль над моделями диффузии текста в изображение. Мы представляем новую архитектуру ControlNet-Transformer, специально адаптированную для трансформеров, которая обеспечивает явную управляемость наряду с генерацией высококачественных изображений. Как современная модель генерации изображений с открытым исходным кодом, PIXART-{\delta} предлагает перспективную альтернативу семейству моделей Stable Diffusion, внося значительный вклад в область синтеза изображений на основе текста.
English
This technical report introduces PIXART-{\delta}, a text-to-image synthesis
framework that integrates the Latent Consistency Model (LCM) and ControlNet
into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its
ability to generate high-quality images of 1024px resolution through a
remarkably efficient training process. The integration of LCM in
PIXART-{\delta} significantly accelerates the inference speed, enabling the
production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta}
achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images,
marking a 7x improvement over the PIXART-{\alpha}. Additionally,
PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs
within a single day. With its 8-bit inference capability (von Platen et al.,
2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory
constraints, greatly enhancing its usability and accessibility. Furthermore,
incorporating a ControlNet-like module enables fine-grained control over
text-to-image diffusion models. We introduce a novel ControlNet-Transformer
architecture, specifically tailored for Transformers, achieving explicit
controllability alongside high-quality image generation. As a state-of-the-art,
open-source image generation model, PIXART-{\delta} offers a promising
alternative to the Stable Diffusion family of models, contributing
significantly to text-to-image synthesis.