Kandinsky : une synthèse texte-image améliorée avec a priori d'image et diffusion latente
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
October 5, 2023
Auteurs: Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Résumé
La génération d'images à partir de texte est un domaine majeur en vision par ordinateur moderne et a connu des améliorations substantielles grâce à l'évolution des architectures génératives. Parmi celles-ci, les modèles basés sur la diffusion ont démontré des avancées significatives en termes de qualité. Ces modèles sont généralement divisés en deux catégories : les approches au niveau des pixels et celles au niveau latent. Nous présentons Kandinsky1, une exploration novatrice de l'architecture de diffusion latente, combinant les principes des modèles de priorité d'image avec les techniques de diffusion latente. Le modèle de priorité d'image est entraîné séparément pour mapper les embeddings de texte aux embeddings d'image de CLIP. Une autre caractéristique distincte du modèle proposé est l'implémentation modifiée de MoVQ, qui sert de composant autoencodeur d'image. Globalement, le modèle conçu contient 3,3 milliards de paramètres. Nous avons également déployé un système de démonstration convivial qui prend en charge divers modes génératifs tels que la génération d'images à partir de texte, la fusion d'images, la fusion de texte et d'image, la génération de variations d'images, ainsi que l'inpainting/outpainting guidé par texte. De plus, nous avons publié le code source et les checkpoints des modèles Kandinsky. Les évaluations expérimentales montrent un score FID de 8,03 sur le jeu de données COCO-30K, positionnant notre modèle comme le meilleur performant open-source en termes de qualité mesurable de génération d'images.
English
Text-to-image generation is a significant domain in modern computer vision
and has achieved substantial improvements through the evolution of generative
architectures. Among these, there are diffusion-based models that have
demonstrated essential quality enhancements. These models are generally split
into two categories: pixel-level and latent-level approaches. We present
Kandinsky1, a novel exploration of latent diffusion architecture, combining the
principles of the image prior models with latent diffusion techniques. The
image prior model is trained separately to map text embeddings to image
embeddings of CLIP. Another distinct feature of the proposed model is the
modified MoVQ implementation, which serves as the image autoencoder component.
Overall, the designed model contains 3.3B parameters. We also deployed a
user-friendly demo system that supports diverse generative modes such as
text-to-image generation, image fusion, text and image fusion, image variations
generation, and text-guided inpainting/outpainting. Additionally, we released
the source code and checkpoints for the Kandinsky models. Experimental
evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking
our model as the top open-source performer in terms of measurable image
generation quality.