Technisch Rapport Kandinsky 3.0
Kandinsky 3.0 Technical Report
December 6, 2023
Auteurs: Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Samenvatting
We presenteren Kandinsky 3.0, een grootschalig tekst-naar-beeld generatiemodel gebaseerd op latente diffusie, dat de reeks tekst-naar-beeld Kandinsky-modellen voortzet en onze vooruitgang weerspiegelt om een hogere kwaliteit en realisme van beeldgeneratie te bereiken. In vergelijking met eerdere versies van Kandinsky 2.x, maakt Kandinsky 3.0 gebruik van een U-Net backbone die twee keer zo groot is, een tekstencoder die tien keer zo groot is, en verwijdert het diffusie-mapping. We beschrijven de architectuur van het model, de procedure voor het verzamelen van data, de trainingsmethode en het productiesysteem voor gebruikersinteractie. We richten ons op de belangrijkste componenten die, zoals we hebben geïdentificeerd als resultaat van een groot aantal experimenten, de meest significante impact hadden op het verbeteren van de kwaliteit van ons model in vergelijking met andere. Uit onze zij-aan-zij vergelijkingen blijkt dat Kandinsky beter wordt in tekstbegrip en beter presteert in specifieke domeinen. Projectpagina: https://ai-forever.github.io/Kandinsky-3
English
We present Kandinsky 3.0, a large-scale text-to-image generation model based
on latent diffusion, continuing the series of text-to-image Kandinsky models
and reflecting our progress to achieve higher quality and realism of image
generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0
leverages a two times larger U-Net backbone, a ten times larger text encoder
and removes diffusion mapping. We describe the architecture of the model, the
data collection procedure, the training technique, and the production system of
user interaction. We focus on the key components that, as we have identified as
a result of a large number of experiments, had the most significant impact on
improving the quality of our model compared to the others. By our side-by-side
comparisons, Kandinsky becomes better in text understanding and works better on
specific domains. Project page: https://ai-forever.github.io/Kandinsky-3