Kandinsky: een Verbeterde Tekst-naar-Beeld Synthese met Beeldprior en Latente Diffusie
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
October 5, 2023
Auteurs: Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Samenvatting
Tekst-naar-beeldgeneratie is een belangrijk domein binnen de moderne computervisie en heeft aanzienlijke verbeteringen bereikt door de evolutie van generatieve architecturen. Hieronder bevinden zich op diffusie gebaseerde modellen die essentiële kwaliteitsverbeteringen hebben aangetoond. Deze modellen worden over het algemeen verdeeld in twee categorieën: pixelniveau- en latentniveau-benaderingen. Wij presenteren Kandinsky1, een nieuwe verkenning van de latent diffusie-architectuur, waarbij de principes van de beeldprior-modellen worden gecombineerd met latent diffusie-technieken. Het beeldprior-model wordt apart getraind om tekst-embeddings af te beelden op beeld-embeddings van CLIP. Een ander onderscheidend kenmerk van het voorgestelde model is de aangepaste MoVQ-implementatie, die fungeert als de beeld-autoencoder-component. Over het algemeen bevat het ontworpen model 3,3 miljard parameters. We hebben ook een gebruiksvriendelijk demosysteem geïmplementeerd dat diverse generatieve modi ondersteunt, zoals tekst-naar-beeldgeneratie, beeldfusie, tekst- en beeldfusie, beeldvariatiesgeneratie en tekstgeleide inpainting/outpainting. Daarnaast hebben we de broncode en checkpoints voor de Kandinsky-modellen vrijgegeven. Experimentele evaluaties tonen een FID-score van 8,03 op de COCO-30K dataset, wat ons model markeert als de beste open-source presteerder in termen van meetbare beeldgeneratiekwaliteit.
English
Text-to-image generation is a significant domain in modern computer vision
and has achieved substantial improvements through the evolution of generative
architectures. Among these, there are diffusion-based models that have
demonstrated essential quality enhancements. These models are generally split
into two categories: pixel-level and latent-level approaches. We present
Kandinsky1, a novel exploration of latent diffusion architecture, combining the
principles of the image prior models with latent diffusion techniques. The
image prior model is trained separately to map text embeddings to image
embeddings of CLIP. Another distinct feature of the proposed model is the
modified MoVQ implementation, which serves as the image autoencoder component.
Overall, the designed model contains 3.3B parameters. We also deployed a
user-friendly demo system that supports diverse generative modes such as
text-to-image generation, image fusion, text and image fusion, image variations
generation, and text-guided inpainting/outpainting. Additionally, we released
the source code and checkpoints for the Kandinsky models. Experimental
evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking
our model as the top open-source performer in terms of measurable image
generation quality.