ChatPaper.aiChatPaper

칸딘스키 5.0: 이미지 및 비디오 생성을 위한 기초 모델 패밀리

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

November 19, 2025
저자: Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov
cs.AI

초록

본 보고서는 고해상도 이미지 및 10초 비디오 합성을 위한 최첨단 기반 모델인 Kandinsky 5.0 시리즈를 소개한다. 이 프레임워크는 세 가지 핵심 모델 라인업으로 구성된다: Kandinsky 5.0 Image Lite - 6B 파라미터 이미지 생성 모델 라인업, Kandinsky 5.0 Video Lite - 빠르고 경량화된 2B 파라미터 텍스트-투-비디오 및 이미지-투-비디오 모델, 그리고 Kandinsky 5.0 Video Pro - 우수한 비디오 생성 품질을 달성하는 19B 파라미터 모델. 본 보고서는 다단계 학습 파이프라인을 위한 데이터 큐레이션 라이프사이클(수집, 처리, 필터링 및 클러스터링 포함)을 종합적으로 검토하며, 이 파이프라인은 광범위한 사전 학습과 자기 지도 미세 조정(SFT) 및 강화 학습(RL) 기반 사후 학습과 같은 품질 향상 기법을 통합한다. 또한 Kandinsky 5.0이 다양한 작업에서 높은 생성 속도와 최첨단 성능을 달성할 수 있도록 하는 새로운 아키텍처, 학습 및 추론 최적화를 제시하며, 이는 인간 평가를 통해 입증된다. 대규모 공개 생성 프레임워크로서 Kandinsky 5.0은 사전 학습 및 후속 단계의 잠재력을 최대한 활용하여 다양한 생성 애플리케이션에 적응할 수 있다. 본 보고서와 함께 오픈소스 코드 및 학습 체크포인트를 공개함으로써 연구 커뮤니티를 위한 고품질 생성 모델의 개발과 접근성을 크게 진전시킬 수 있기를 기대한다.
English
This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.
PDF1254November 21, 2025