Kandinsky 5.0: Una familia de modelos fundamentales para la generación de imágenes y videos
Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
November 19, 2025
Autores: Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov
cs.AI
Resumen
Este informe presenta Kandinsky 5.0, una familia de modelos base de vanguardia para la síntesis de imágenes de alta resolución y videos de 10 segundos. El marco comprende tres líneas principales de modelos: Kandinsky 5.0 Image Lite, una serie de modelos de generación de imágenes con 6 mil millones de parámetros; Kandinsky 5.0 Video Lite, modelos rápidos y ligeros de texto a video e imagen a video con 2 mil millones de parámetros; y Kandinsky 5.0 Video Pro, modelos de 19 mil millones de parámetros que logran una calidad superior en la generación de videos. Ofrecemos una revisión exhaustiva del ciclo de vida de la curación de datos —incluyendo recopilación, procesamiento, filtrado y agrupamiento— para la canalización de entrenamiento en múltiples etapas que implica un extenso preentrenamiento e incorpora técnicas de mejora de calidad como el ajuste fino autosupervisado (SFT) y el entrenamiento posterior basado en aprendizaje por refuerzo (RL). También presentamos optimizaciones novedosas en arquitectura, entrenamiento e inferencia que permiten a Kandinsky 5.0 alcanzar velocidades de generación elevadas y un rendimiento de vanguardia en diversas tareas, según lo demuestra la evaluación humana. Como un marco generativo de gran escala y disponible públicamente, Kandinsky 5.0 aprovecha al máximo su preentrenamiento y las etapas posteriores para adaptarse a una amplia gama de aplicaciones generativas. Esperamos que este informe, junto con la liberación de nuestro código de fuente abierta y puntos de control de entrenamiento, avance significativamente el desarrollo y la accesibilidad de modelos generativos de alta calidad para la comunidad investigadora.
English
This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.