ChatPaper.aiChatPaper

Kandinsky 5.0: Uma Família de Modelos de Base para Geração de Imagens e Vídeos

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

November 19, 2025
Autores: Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov
cs.AI

Resumo

Este relatório apresenta o Kandinsky 5.0, uma família de modelos de base de última geração para síntese de imagens de alta resolução e vídeos de 10 segundos. O framework é composto por três linhas principais de modelos: Kandinsky 5.0 Image Lite - uma linha de modelos de geração de imagens com 6 bilhões de parâmetros, Kandinsky 5.0 Video Lite - modelos rápidos e leves de texto-para-vídeo e imagem-para-vídeo com 2 bilhões de parâmetros, e Kandinsky 5.0 Video Pro - modelos com 19 bilhões de parâmetros que alcançam qualidade superior na geração de vídeos. Fornecemos uma revisão abrangente do ciclo de vida de curadoria de dados - incluindo coleta, processamento, filtragem e agrupamento - para o pipeline de treinamento em múltiplas etapas que envolve extenso pré-treinamento e incorpora técnicas de aprimoramento de qualidade, como ajuste fino auto-supervisionado (SFT) e pós-treinamento baseado em aprendizado por reforço (RL). Também apresentamos otimizações arquitetônicas, de treinamento e de inferência inovadoras que permitem ao Kandinsky 5.0 alcançar altas velocidades de geração e desempenho de ponta em diversas tarefas, conforme demonstrado por avaliações humanas. Como um framework generativo de grande escala e disponível publicamente, o Kandinsky 5.0 aproveita todo o potencial de seu pré-treinamento e etapas subsequentes para ser adaptado a uma ampla gama de aplicações generativas. Esperamos que este relatório, juntamente com o lançamento de nosso código aberto e checkpoints de treinamento, avance significativamente o desenvolvimento e a acessibilidade de modelos generativos de alta qualidade para a comunidade de pesquisa.
English
This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.
PDF2317February 24, 2026