Kandinsky 5.0: Семейство базовых моделей для генерации изображений и видео
Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
November 19, 2025
Авторы: Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov
cs.AI
Аннотация
В данном отчете представлена Kandinsky 5.0 — семейство современных базовых моделей для синтеза изображений высокого разрешения и 10-секундных видеороликов. Фреймворк включает три основные линейки моделей: Kandinsky 5.0 Image Lite — линейку моделей генерации изображений с 6 миллиардами параметров, Kandinsky 5.0 Video Lite — быстрые и легковесные модели преобразования текста в видео и изображения в видео с 2 миллиардами параметров, а также Kandinsky 5.0 Video Pro — модели с 19 миллиардами параметров, обеспечивающие превосходное качество генерации видео. В работе представлен всесторонний обзор жизненного цикла подготовки данных, включающего сбор, обработку, фильтрацию и кластеризацию, для многоэтапного процесса обучения, который включает обширное предварительное обучение и использует методы повышения качества, такие как самообучаемая тонкая настройка (SFT) и пост-обучение на основе обучения с подкреплением (RL). Также описаны новые архитектурные, обучающие и оптимизационные подходы, которые позволяют Kandinsky 5.0 достигать высокой скорости генерации и передовых показателей производительности в различных задачах, что подтверждено оценкой экспертов. Как крупномасштабный и общедоступный генеративный фреймворк, Kandinsky 5.0 раскрывает весь потенциал своего предварительного обучения и последующих этапов, что делает его пригодным для широкого спектра генеративных приложений. Мы надеемся, что данный отчет, наряду с публикацией нашего открытого исходного кода и контрольных точек обучения, внесет значительный вклад в развитие и доступность высококачественных генеративных моделей для исследовательского сообщества.
English
This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.