Kandinsky 5.0: Een Familie van Fundamentmodellen voor Beeld- en Videogeneratie

Samenvatting

Dit rapport introduceert Kandinsky 5.0, een familie van state-of-the-art foundation-modellen voor de synthese van hoogwaardige afbeeldingen en 10-seconden video’s. Het framework bestaat uit drie kernmodellen: Kandinsky 5.0 Image Lite – een reeks van 6B-parameter modellen voor beeldgeneratie, Kandinsky 5.0 Video Lite – snelle en lichtgewicht 2B-parameter modellen voor tekst-naar-video en beeld-naar-video, en Kandinsky 5.0 Video Pro – 19B-parameter modellen die superieure videogeneratiekwaliteit bereiken. We bieden een uitgebreid overzicht van de levenscyclus van datacuratie – inclusief verzameling, verwerking, filtering en clustering – voor de meerfasige trainingspipeline die uitgebreide voorafgaande training omvat en kwaliteitsverbeterende technieken integreert, zoals zelfsupervised fine-tuning (SFT) en reinforcement learning (RL)-gebaseerde na-training. We presenteren ook nieuwe architectonische, trainings- en inferentie-optimalisaties die Kandinsky 5.0 in staat stellen hoge generatiesnelheden en state-of-the-art prestaties te bereiken voor diverse taken, zoals aangetoond door menselijke evaluatie. Als een grootschalig, publiek beschikbaar generatief framework benut Kandinsky 5.0 het volledige potentieel van zijn voorafgaande training en latere fasen om te worden aangepast voor een breed scala aan generatieve toepassingen. We hopen dat dit rapport, samen met de release van onze open-source code en trainingscheckpoints, de ontwikkeling en toegankelijkheid van hoogwaardige generatieve modellen voor de onderzoeksgemeenschap aanzienlijk zal bevorderen.

English

This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.

Kandinsky 5.0: Een Familie van Fundamentmodellen voor Beeld- en Videogeneratie

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Samenvatting

Support