Rapporto Tecnico di Kandinsky 3.0
Kandinsky 3.0 Technical Report
December 6, 2023
Autori: Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Abstract
Presentiamo Kandinsky 3.0, un modello su larga scala per la generazione di immagini da testo basato su diffusione latente, che continua la serie di modelli Kandinsky per la generazione di immagini da testo e riflette i nostri progressi nel raggiungere una qualità e un realismo superiori nella generazione di immagini. Rispetto alle versioni precedenti di Kandinsky 2.x, Kandinsky 3.0 utilizza una backbone U-Net due volte più grande, un encoder di testo dieci volte più grande e rimuove il mapping di diffusione. Descriviamo l'architettura del modello, la procedura di raccolta dei dati, la tecnica di addestramento e il sistema di produzione per l'interazione con l'utente. Ci concentriamo sui componenti chiave che, come abbiamo identificato in seguito a un ampio numero di esperimenti, hanno avuto l'impatto più significativo nel migliorare la qualità del nostro modello rispetto agli altri. Dai nostri confronti affiancati, Kandinsky diventa migliore nella comprensione del testo e funziona meglio in domini specifici. Pagina del progetto: https://ai-forever.github.io/Kandinsky-3
English
We present Kandinsky 3.0, a large-scale text-to-image generation model based
on latent diffusion, continuing the series of text-to-image Kandinsky models
and reflecting our progress to achieve higher quality and realism of image
generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0
leverages a two times larger U-Net backbone, a ten times larger text encoder
and removes diffusion mapping. We describe the architecture of the model, the
data collection procedure, the training technique, and the production system of
user interaction. We focus on the key components that, as we have identified as
a result of a large number of experiments, had the most significant impact on
improving the quality of our model compared to the others. By our side-by-side
comparisons, Kandinsky becomes better in text understanding and works better on
specific domains. Project page: https://ai-forever.github.io/Kandinsky-3