ChatPaper.aiChatPaper

Rapporto Tecnico di Kandinsky 3.0

Kandinsky 3.0 Technical Report

December 6, 2023
Autori: Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov
cs.AI

Abstract

Presentiamo Kandinsky 3.0, un modello su larga scala per la generazione di immagini da testo basato su diffusione latente, che continua la serie di modelli Kandinsky per la generazione di immagini da testo e riflette i nostri progressi nel raggiungere una qualità e un realismo superiori nella generazione di immagini. Rispetto alle versioni precedenti di Kandinsky 2.x, Kandinsky 3.0 utilizza una backbone U-Net due volte più grande, un encoder di testo dieci volte più grande e rimuove il mapping di diffusione. Descriviamo l'architettura del modello, la procedura di raccolta dei dati, la tecnica di addestramento e il sistema di produzione per l'interazione con l'utente. Ci concentriamo sui componenti chiave che, come abbiamo identificato in seguito a un ampio numero di esperimenti, hanno avuto l'impatto più significativo nel migliorare la qualità del nostro modello rispetto agli altri. Dai nostri confronti affiancati, Kandinsky diventa migliore nella comprensione del testo e funziona meglio in domini specifici. Pagina del progetto: https://ai-forever.github.io/Kandinsky-3
English
We present Kandinsky 3.0, a large-scale text-to-image generation model based on latent diffusion, continuing the series of text-to-image Kandinsky models and reflecting our progress to achieve higher quality and realism of image generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0 leverages a two times larger U-Net backbone, a ten times larger text encoder and removes diffusion mapping. We describe the architecture of the model, the data collection procedure, the training technique, and the production system of user interaction. We focus on the key components that, as we have identified as a result of a large number of experiments, had the most significant impact on improving the quality of our model compared to the others. By our side-by-side comparisons, Kandinsky becomes better in text understanding and works better on specific domains. Project page: https://ai-forever.github.io/Kandinsky-3
PDF461December 15, 2024