Informe Técnico de Kandinsky 3.0
Kandinsky 3.0 Technical Report
December 6, 2023
Autores: Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Resumen
Presentamos Kandinsky 3.0, un modelo de generación de imágenes a partir de texto a gran escala basado en difusión latente, que continúa la serie de modelos Kandinsky de texto a imagen y refleja nuestro progreso para lograr una mayor calidad y realismo en la generación de imágenes. En comparación con las versiones anteriores de Kandinsky 2.x, Kandinsky 3.0 utiliza una arquitectura U-Net dos veces más grande, un codificador de texto diez veces más grande y elimina el mapeo de difusión. Describimos la arquitectura del modelo, el procedimiento de recopilación de datos, la técnica de entrenamiento y el sistema de producción para la interacción del usuario. Nos enfocamos en los componentes clave que, como hemos identificado a partir de una gran cantidad de experimentos, tuvieron el impacto más significativo en la mejora de la calidad de nuestro modelo en comparación con otros. Según nuestras comparaciones lado a lado, Kandinsky mejora en la comprensión del texto y funciona mejor en dominios específicos. Página del proyecto: https://ai-forever.github.io/Kandinsky-3
English
We present Kandinsky 3.0, a large-scale text-to-image generation model based
on latent diffusion, continuing the series of text-to-image Kandinsky models
and reflecting our progress to achieve higher quality and realism of image
generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0
leverages a two times larger U-Net backbone, a ten times larger text encoder
and removes diffusion mapping. We describe the architecture of the model, the
data collection procedure, the training technique, and the production system of
user interaction. We focus on the key components that, as we have identified as
a result of a large number of experiments, had the most significant impact on
improving the quality of our model compared to the others. By our side-by-side
comparisons, Kandinsky becomes better in text understanding and works better on
specific domains. Project page: https://ai-forever.github.io/Kandinsky-3