Kandinsky: Eine verbesserte Text-zu-Bild-Synthese mit Bildprior und latenter Diffusion
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
October 5, 2023
Autoren: Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Zusammenfassung
Text-to-Image-Generierung ist ein bedeutendes Gebiet der modernen Computer Vision und hat durch die Weiterentwicklung generativer Architekturen erhebliche Fortschritte erzielt. Unter diesen haben sich diffusionsbasierte Modelle als wesentliche Qualitätsverbesserungen erwiesen. Diese Modelle werden allgemein in zwei Kategorien unterteilt: Pixel-Level- und Latent-Level-Ansätze. Wir präsentieren Kandinsky1, eine neuartige Erkundung der Latent-Diffusions-Architektur, die die Prinzipien der Image-Prior-Modelle mit Latent-Diffusions-Techniken kombiniert. Das Image-Prior-Modell wird separat trainiert, um Text-Embeddings auf Bild-Embeddings von CLIP abzubilden. Ein weiteres besonderes Merkmal des vorgeschlagenen Modells ist die modifizierte MoVQ-Implementierung, die als Bild-Autoencoder-Komponente dient. Insgesamt enthält das entwickelte Modell 3,3 Milliarden Parameter. Wir haben auch ein benutzerfreundliches Demo-System bereitgestellt, das verschiedene generative Modi unterstützt, wie Text-to-Image-Generierung, Bildfusion, Text- und Bildfusion, Bildvariationsgenerierung sowie textgesteuertes Inpainting/Outpainting. Zusätzlich haben wir den Quellcode und die Checkpoints für die Kandinsky-Modelle veröffentlicht. Experimentelle Auswertungen zeigen einen FID-Score von 8,03 auf dem COCO-30K-Datensatz, was unser Modell als den führenden Open-Source-Performer in Bezug auf messbare Bildgenerierungsqualität auszeichnet.
English
Text-to-image generation is a significant domain in modern computer vision
and has achieved substantial improvements through the evolution of generative
architectures. Among these, there are diffusion-based models that have
demonstrated essential quality enhancements. These models are generally split
into two categories: pixel-level and latent-level approaches. We present
Kandinsky1, a novel exploration of latent diffusion architecture, combining the
principles of the image prior models with latent diffusion techniques. The
image prior model is trained separately to map text embeddings to image
embeddings of CLIP. Another distinct feature of the proposed model is the
modified MoVQ implementation, which serves as the image autoencoder component.
Overall, the designed model contains 3.3B parameters. We also deployed a
user-friendly demo system that supports diverse generative modes such as
text-to-image generation, image fusion, text and image fusion, image variations
generation, and text-guided inpainting/outpainting. Additionally, we released
the source code and checkpoints for the Kandinsky models. Experimental
evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking
our model as the top open-source performer in terms of measurable image
generation quality.