Kandinsky: una sintesi testo-immagine migliorata con prior immagine e diffusione latente
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
October 5, 2023
Autori: Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Abstract
La generazione di immagini da testo rappresenta un dominio significativo nella moderna visione artificiale e ha raggiunto miglioramenti sostanziali grazie all'evoluzione delle architetture generative. Tra queste, i modelli basati su diffusione hanno dimostrato miglioramenti essenziali nella qualità. Questi modelli sono generalmente suddivisi in due categorie: approcci a livello di pixel e approcci a livello latente. Presentiamo Kandinsky1, una nuova esplorazione dell'architettura di diffusione latente, che combina i principi dei modelli di priorità dell'immagine con le tecniche di diffusione latente. Il modello di priorità dell'immagine viene addestrato separatamente per mappare gli embedding di testo agli embedding di immagine di CLIP. Un'altra caratteristica distintiva del modello proposto è l'implementazione modificata di MoVQ, che funge da componente autoencoder dell'immagine. Nel complesso, il modello progettato contiene 3,3 miliardi di parametri. Abbiamo anche implementato un sistema demo user-friendly che supporta diverse modalità generative come la generazione di immagini da testo, la fusione di immagini, la fusione di testo e immagini, la generazione di variazioni di immagini e il riempimento/ampliamento guidato da testo. Inoltre, abbiamo rilasciato il codice sorgente e i checkpoint per i modelli Kandinsky. Le valutazioni sperimentali dimostrano un punteggio FID di 8,03 sul dataset COCO-30K, posizionando il nostro modello come il miglior esecutore open-source in termini di qualità misurabile della generazione di immagini.
English
Text-to-image generation is a significant domain in modern computer vision
and has achieved substantial improvements through the evolution of generative
architectures. Among these, there are diffusion-based models that have
demonstrated essential quality enhancements. These models are generally split
into two categories: pixel-level and latent-level approaches. We present
Kandinsky1, a novel exploration of latent diffusion architecture, combining the
principles of the image prior models with latent diffusion techniques. The
image prior model is trained separately to map text embeddings to image
embeddings of CLIP. Another distinct feature of the proposed model is the
modified MoVQ implementation, which serves as the image autoencoder component.
Overall, the designed model contains 3.3B parameters. We also deployed a
user-friendly demo system that supports diverse generative modes such as
text-to-image generation, image fusion, text and image fusion, image variations
generation, and text-guided inpainting/outpainting. Additionally, we released
the source code and checkpoints for the Kandinsky models. Experimental
evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking
our model as the top open-source performer in terms of measurable image
generation quality.