ChatPaper.aiChatPaper

Kandinsky: una síntesis mejorada de texto a imagen con prior de imagen y difusión latente

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

October 5, 2023
Autores: Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
cs.AI

Resumen

La generación de texto a imagen es un dominio significativo en la visión por computadora moderna y ha logrado mejoras sustanciales a través de la evolución de las arquitecturas generativas. Entre estas, se encuentran los modelos basados en difusión que han demostrado mejoras esenciales en la calidad. Estos modelos generalmente se dividen en dos categorías: enfoques a nivel de píxeles y a nivel latente. Presentamos Kandinsky1, una exploración novedosa de la arquitectura de difusión latente, que combina los principios de los modelos de prior de imagen con técnicas de difusión latente. El modelo de prior de imagen se entrena por separado para mapear incrustaciones de texto a incrustaciones de imagen de CLIP. Otra característica distintiva del modelo propuesto es la implementación modificada de MoVQ, que sirve como componente del autoencoder de imágenes. En general, el modelo diseñado contiene 3.3 mil millones de parámetros. También implementamos un sistema de demostración fácil de usar que admite diversos modos generativos, como la generación de texto a imagen, fusión de imágenes, fusión de texto e imagen, generación de variaciones de imágenes y restauración/ampliación guiada por texto. Además, publicamos el código fuente y los puntos de control para los modelos Kandinsky. Las evaluaciones experimentales demuestran un puntaje FID de 8.03 en el conjunto de datos COCO-30K, lo que posiciona a nuestro modelo como el mejor de código abierto en términos de calidad medible de generación de imágenes.
English
Text-to-image generation is a significant domain in modern computer vision and has achieved substantial improvements through the evolution of generative architectures. Among these, there are diffusion-based models that have demonstrated essential quality enhancements. These models are generally split into two categories: pixel-level and latent-level approaches. We present Kandinsky1, a novel exploration of latent diffusion architecture, combining the principles of the image prior models with latent diffusion techniques. The image prior model is trained separately to map text embeddings to image embeddings of CLIP. Another distinct feature of the proposed model is the modified MoVQ implementation, which serves as the image autoencoder component. Overall, the designed model contains 3.3B parameters. We also deployed a user-friendly demo system that supports diverse generative modes such as text-to-image generation, image fusion, text and image fusion, image variations generation, and text-guided inpainting/outpainting. Additionally, we released the source code and checkpoints for the Kandinsky models. Experimental evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking our model as the top open-source performer in terms of measurable image generation quality.
PDF795December 15, 2024