ChatPaper.aiChatPaper

Kandinsky 5.0: Eine Familie von Basismodellen für die Bild- und Videogenerierung

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

November 19, 2025
papers.authors: Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov
cs.AI

papers.abstract

Dieser Bericht stellt Kandinsky 5.0 vor, eine Familie von hochmodernen Foundation-Modellen für die Synthese hochauflösender Bilder und 10-sekündiger Videos. Das Framework umfasst drei zentrale Modellreihen: Kandinsky 5.0 Image Lite – eine Reihe von Bildgenerierungsmodellen mit 6 Milliarden Parametern, Kandinsky 5.0 Video Lite – schnelle und leichtgewichtige Text-zu-Video- und Bild-zu-Video-Modelle mit 2 Milliarden Parametern, und Kandinsky 5.0 Video Pro – Modelle mit 19 Milliarden Parametern, die eine überragende Videogenerierungsqualität erreichen. Wir bieten eine umfassende Übersicht über den Lebenszyklus der Datenkuratierung – einschließlich Sammlung, Verarbeitung, Filterung und Clustering – für die mehrstufige Trainingspipeline, die umfangreiches Pre-Training umfasst und qualitätssteigernde Techniken wie selbstüberwachtes Fein-Tuning (SFT) und verstärkungsbasiertes Post-Training (RL) integriert. Darüber hinaus präsentieren wir neuartige architektonische, Trainings- und Inferenzoptimierungen, die es Kandinsky 5.0 ermöglichen, hohe Generierungsgeschwindigkeiten und Spitzenleistungen in verschiedenen Aufgaben zu erreichen, wie durch menschliche Bewertungen demonstriert wird. Als groß angelegtes, öffentlich verfügbares generatives Framework nutzt Kandinsky 5.0 das volle Potenzial seines Pre-Trainings und der nachfolgenden Phasen, um für eine breite Palette generativer Anwendungen adaptiert zu werden. Wir hoffen, dass dieser Bericht zusammen mit der Veröffentlichung unseres Open-Source-Codes und der Trainings-Checkpoints die Entwicklung und Zugänglichkeit hochwertiger generativer Modelle für die Forschungsgemeinschaft erheblich vorantreiben wird.
English
This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.
PDF1254November 21, 2025