Rapport Technique de Kandinsky 3.0
Kandinsky 3.0 Technical Report
December 6, 2023
Auteurs: Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Résumé
Nous présentons Kandinsky 3.0, un modèle de génération d'images à partir de texte à grande échelle basé sur la diffusion latente, poursuivant la série des modèles Kandinsky et reflétant nos progrès pour atteindre une qualité et un réalisme accrus dans la génération d'images. Par rapport aux versions précédentes de Kandinsky 2.x, Kandinsky 3.0 utilise une architecture U-Net deux fois plus grande, un encodeur de texte dix fois plus volumineux et supprime le mapping de diffusion. Nous décrivons l'architecture du modèle, la procédure de collecte des données, la technique d'entraînement et le système de production pour l'interaction utilisateur. Nous nous concentrons sur les composants clés qui, comme nous l'avons identifié à travers un grand nombre d'expériences, ont eu l'impact le plus significatif sur l'amélioration de la qualité de notre modèle par rapport aux autres. Grâce à nos comparaisons côte à côte, Kandinsky montre une meilleure compréhension du texte et fonctionne plus efficacement dans des domaines spécifiques. Page du projet : https://ai-forever.github.io/Kandinsky-3
English
We present Kandinsky 3.0, a large-scale text-to-image generation model based
on latent diffusion, continuing the series of text-to-image Kandinsky models
and reflecting our progress to achieve higher quality and realism of image
generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0
leverages a two times larger U-Net backbone, a ten times larger text encoder
and removes diffusion mapping. We describe the architecture of the model, the
data collection procedure, the training technique, and the production system of
user interaction. We focus on the key components that, as we have identified as
a result of a large number of experiments, had the most significant impact on
improving the quality of our model compared to the others. By our side-by-side
comparisons, Kandinsky becomes better in text understanding and works better on
specific domains. Project page: https://ai-forever.github.io/Kandinsky-3