Kandinsky: uma Síntese Aprimorada de Texto para Imagem com Prior de Imagem e Difusão Latente
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
October 5, 2023
Autores: Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Resumo
A geração de texto para imagem é um domínio significativo na visão computacional moderna e alcançou melhorias substanciais através da evolução das arquiteturas generativas. Entre essas, estão os modelos baseados em difusão que demonstraram aprimoramentos essenciais na qualidade. Esses modelos são geralmente divididos em duas categorias: abordagens em nível de pixel e em nível latente. Apresentamos o Kandinsky1, uma nova exploração da arquitetura de difusão latente, combinando os princípios dos modelos de prior de imagem com técnicas de difusão latente. O modelo de prior de imagem é treinado separadamente para mapear embeddings de texto para embeddings de imagem do CLIP. Outra característica distinta do modelo proposto é a implementação modificada do MoVQ, que serve como componente do autoencoder de imagem. No geral, o modelo projetado contém 3,3 bilhões de parâmetros. Também implementamos um sistema de demonstração amigável ao usuário que suporta diversos modos generativos, como geração de texto para imagem, fusão de imagens, fusão de texto e imagem, geração de variações de imagem e inpainting/outpainting guiado por texto. Além disso, disponibilizamos o código-fonte e os checkpoints dos modelos Kandinsky. Avaliações experimentais demonstram um score FID de 8,03 no conjunto de dados COCO-30K, posicionando nosso modelo como o melhor desempenho de código aberto em termos de qualidade mensurável de geração de imagem.
English
Text-to-image generation is a significant domain in modern computer vision
and has achieved substantial improvements through the evolution of generative
architectures. Among these, there are diffusion-based models that have
demonstrated essential quality enhancements. These models are generally split
into two categories: pixel-level and latent-level approaches. We present
Kandinsky1, a novel exploration of latent diffusion architecture, combining the
principles of the image prior models with latent diffusion techniques. The
image prior model is trained separately to map text embeddings to image
embeddings of CLIP. Another distinct feature of the proposed model is the
modified MoVQ implementation, which serves as the image autoencoder component.
Overall, the designed model contains 3.3B parameters. We also deployed a
user-friendly demo system that supports diverse generative modes such as
text-to-image generation, image fusion, text and image fusion, image variations
generation, and text-guided inpainting/outpainting. Additionally, we released
the source code and checkpoints for the Kandinsky models. Experimental
evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking
our model as the top open-source performer in terms of measurable image
generation quality.