Kandinsky 5.0: Una Famiglia di Modelli di Base per la Generazione di Immagini e Video
Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
November 19, 2025
Autori: Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov
cs.AI
Abstract
Questo rapporto introduce Kandinsky 5.0, una famiglia di modelli fondazionali all’avanguardia per la sintesi di immagini ad alta risoluzione e video della durata di 10 secondi. Il framework comprende tre linee principali di modelli: Kandinsky 5.0 Image Lite - una serie di modelli di generazione di immagini con 6 miliardi di parametri, Kandinsky 5.0 Video Lite - modelli leggeri e veloci con 2 miliardi di parametri per la generazione di video da testo e da immagini, e Kandinsky 5.0 Video Pro - modelli con 19 miliardi di parametri che raggiungono una qualità superiore nella generazione di video. Forniamo una revisione completa del ciclo di vita della curatela dei dati - inclusi raccolta, elaborazione, filtraggio e clustering - per la pipeline di addestramento multi-stadio che coinvolge un’ampia pre-addestramento e incorpora tecniche di miglioramento della qualità come il fine-tuning auto-supervisionato (SFT) e il post-addestramento basato su apprendimento per rinforzo (RL). Presentiamo inoltre nuove ottimizzazioni architetturali, di addestramento e di inferenza che consentono a Kandinsky 5.0 di raggiungere velocità di generazione elevate e prestazioni all’avanguardia in varie attività, come dimostrato dalla valutazione umana. Come framework generativo su larga scala e pubblicamente disponibile, Kandinsky 5.0 sfrutta appieno il potenziale del suo pre-addestramento e delle fasi successive per essere adattato a un’ampia gamma di applicazioni generative. Speriamo che questo rapporto, insieme al rilascio del nostro codice open-source e dei checkpoint di addestramento, contribuisca significativamente allo sviluppo e all’accessibilità di modelli generativi di alta qualità per la comunità di ricerca.
English
This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.