Kandinsky 5.0 : Une famille de modèles de base pour la génération d'images et de vidéos
Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
November 19, 2025
papers.authors: Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov
cs.AI
papers.abstract
Ce rapport présente Kandinsky 5.0, une famille de modèles de fondation de pointe pour la synthèse d'images haute résolution et de vidéos de 10 secondes. Le cadre comprend trois modèles principaux : Kandinsky 5.0 Image Lite - une série de modèles de génération d'images de 6 milliards de paramètres, Kandinsky 5.0 Video Lite - des modèles rapides et légers de 2 milliards de paramètres pour la conversion de texte en vidéo et d'image en vidéo, et Kandinsky 5.0 Video Pro - des modèles de 19 milliards de paramètres qui atteignent une qualité supérieure de génération vidéo. Nous fournissons un examen complet du cycle de vie de la curation des données - incluant la collecte, le traitement, le filtrage et le clustering - pour le pipeline d'entraînement en plusieurs étapes qui implique un pré-entraînement extensif et intègre des techniques d'amélioration de la qualité telles que le fine-tuning auto-supervisé (SFT) et le post-entraînement basé sur l'apprentissage par renforcement (RL). Nous présentons également de nouvelles optimisations architecturales, d'entraînement et d'inférence qui permettent à Kandinsky 5.0 d'atteindre des vitesses de génération élevées et des performances de pointe dans diverses tâches, comme le démontre l'évaluation humaine. En tant que cadre génératif à grande échelle et accessible au public, Kandinsky 5.0 exploite pleinement le potentiel de son pré-entraînement et des étapes suivantes pour être adapté à une large gamme d'applications génératives. Nous espérons que ce rapport, ainsi que la publication de notre code open-source et des points de contrôle d'entraînement, contribueront de manière significative au développement et à l'accessibilité de modèles génératifs de haute qualité pour la communauté de recherche.
English
This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.