Kandinsky 5.0: Uma Família de Modelos de Base para Geração de Imagens e Vídeos

Resumo

Este relatório apresenta o Kandinsky 5.0, uma família de modelos de base de última geração para síntese de imagens de alta resolução e vídeos de 10 segundos. O framework é composto por três linhas principais de modelos: Kandinsky 5.0 Image Lite - uma linha de modelos de geração de imagens com 6 bilhões de parâmetros, Kandinsky 5.0 Video Lite - modelos rápidos e leves de texto-para-vídeo e imagem-para-vídeo com 2 bilhões de parâmetros, e Kandinsky 5.0 Video Pro - modelos com 19 bilhões de parâmetros que alcançam qualidade superior na geração de vídeos. Fornecemos uma revisão abrangente do ciclo de vida de curadoria de dados - incluindo coleta, processamento, filtragem e agrupamento - para o pipeline de treinamento em múltiplas etapas que envolve extenso pré-treinamento e incorpora técnicas de aprimoramento de qualidade, como ajuste fino auto-supervisionado (SFT) e pós-treinamento baseado em aprendizado por reforço (RL). Também apresentamos otimizações arquitetônicas, de treinamento e de inferência inovadoras que permitem ao Kandinsky 5.0 alcançar altas velocidades de geração e desempenho de ponta em diversas tarefas, conforme demonstrado por avaliações humanas. Como um framework generativo de grande escala e disponível publicamente, o Kandinsky 5.0 aproveita todo o potencial de seu pré-treinamento e etapas subsequentes para ser adaptado a uma ampla gama de aplicações generativas. Esperamos que este relatório, juntamente com o lançamento de nosso código aberto e checkpoints de treinamento, avance significativamente o desenvolvimento e a acessibilidade de modelos generativos de alta qualidade para a comunidade de pesquisa.

English

This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.