ChatPaper.aiChatPaper

Rapport Technique de Kandinsky 3.0

Kandinsky 3.0 Technical Report

December 6, 2023
Auteurs: Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov
cs.AI

Résumé

Nous présentons Kandinsky 3.0, un modèle de génération d'images à partir de texte à grande échelle basé sur la diffusion latente, poursuivant la série des modèles Kandinsky et reflétant nos progrès pour atteindre une qualité et un réalisme accrus dans la génération d'images. Par rapport aux versions précédentes de Kandinsky 2.x, Kandinsky 3.0 utilise une architecture U-Net deux fois plus grande, un encodeur de texte dix fois plus volumineux et supprime le mapping de diffusion. Nous décrivons l'architecture du modèle, la procédure de collecte des données, la technique d'entraînement et le système de production pour l'interaction utilisateur. Nous nous concentrons sur les composants clés qui, comme nous l'avons identifié à travers un grand nombre d'expériences, ont eu l'impact le plus significatif sur l'amélioration de la qualité de notre modèle par rapport aux autres. Grâce à nos comparaisons côte à côte, Kandinsky montre une meilleure compréhension du texte et fonctionne plus efficacement dans des domaines spécifiques. Page du projet : https://ai-forever.github.io/Kandinsky-3
English
We present Kandinsky 3.0, a large-scale text-to-image generation model based on latent diffusion, continuing the series of text-to-image Kandinsky models and reflecting our progress to achieve higher quality and realism of image generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0 leverages a two times larger U-Net backbone, a ten times larger text encoder and removes diffusion mapping. We describe the architecture of the model, the data collection procedure, the training technique, and the production system of user interaction. We focus on the key components that, as we have identified as a result of a large number of experiments, had the most significant impact on improving the quality of our model compared to the others. By our side-by-side comparisons, Kandinsky becomes better in text understanding and works better on specific domains. Project page: https://ai-forever.github.io/Kandinsky-3
PDF451December 15, 2024