Kandinsky: усовершенствованный синтез изображений из текста с использованием априорной информации об изображении и латентной диффузии
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
October 5, 2023
Авторы: Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Аннотация
Генерация изображений по тексту является важным направлением в современной компьютерной графике и достигла значительных улучшений благодаря эволюции генеративных архитектур. Среди них выделяются модели на основе диффузии, которые продемонстрировали существенное повышение качества. Эти модели обычно делятся на два подхода: на уровне пикселей и на уровне латентных представлений. Мы представляем Kandinsky1 — новое исследование архитектуры латентной диффузии, объединяющее принципы моделей априорного изображения с техниками латентной диффузии. Модель априорного изображения обучается отдельно для отображения текстовых эмбеддингов в эмбеддинги изображений CLIP. Еще одной отличительной особенностью предложенной модели является модифицированная реализация MoVQ, которая выступает в качестве компонента автоэнкодера изображений. В целом, разработанная модель содержит 3,3 миллиарда параметров. Мы также развернули удобную демонстрационную систему, поддерживающую различные генеративные режимы, такие как генерация изображений по тексту, слияние изображений, слияние текста и изображений, генерация вариаций изображений, а также текстово-управляемое восстановление/дополнение изображений. Кроме того, мы опубликовали исходный код и контрольные точки для моделей Kandinsky. Экспериментальные оценки демонстрируют показатель FID, равный 8,03 на наборе данных COCO-30K, что делает нашу модель лучшей среди открытых решений с точки зрения измеримого качества генерации изображений.
English
Text-to-image generation is a significant domain in modern computer vision
and has achieved substantial improvements through the evolution of generative
architectures. Among these, there are diffusion-based models that have
demonstrated essential quality enhancements. These models are generally split
into two categories: pixel-level and latent-level approaches. We present
Kandinsky1, a novel exploration of latent diffusion architecture, combining the
principles of the image prior models with latent diffusion techniques. The
image prior model is trained separately to map text embeddings to image
embeddings of CLIP. Another distinct feature of the proposed model is the
modified MoVQ implementation, which serves as the image autoencoder component.
Overall, the designed model contains 3.3B parameters. We also deployed a
user-friendly demo system that supports diverse generative modes such as
text-to-image generation, image fusion, text and image fusion, image variations
generation, and text-guided inpainting/outpainting. Additionally, we released
the source code and checkpoints for the Kandinsky models. Experimental
evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking
our model as the top open-source performer in terms of measurable image
generation quality.