번역이 포함된 일일 선별된 AI 연구 논문
본 보고서는 고해상도 이미지 및 10초 비디오 합성을 위한 최첨단 기반 모델인 Kandinsky 5.0 시리즈를 소개한다. 이 프레임워크는 세 가지 핵심 모델 라인업으로 구성된다: Kandinsky 5.0 Image Lite - 6B 파라미터 이미지 생성 모델 라인업, Kandinsky 5.0 Video Lite - 빠르고 경량화된 2B 파라미터 텍스트-투-비디오 및 이미지-투-비디오 모델, 그리고 Kandinsky 5.0 Video Pro - 우수한 비디오 생성 품질을 달성하는 19B 파라미터 모델. 본 보고서는 다단계 학습 파이프라인을 위한 데이터 큐레이션 라이프사이클(수집, 처리, 필터링 및 클러스터링 포함)을 종합적으로 검토하며, 이 파이프라인은 광범위한 사전 학습과 자기 지도 미세 조정(SFT) 및 강화 학습(RL) 기반 사후 학습과 같은 품질 향상 기법을 통합한다. 또한 Kandinsky 5.0이 다양한 작업에서 높은 생성 속도와 최첨단 성능을 달성할 수 있도록 하는 새로운 아키텍처, 학습 및 추론 최적화를 제시하며, 이는 인간 평가를 통해 입증된다. 대규모 공개 생성 프레임워크로서 Kandinsky 5.0은 사전 학습 및 후속 단계의 잠재력을 최대한 활용하여 다양한 생성 애플리케이션에 적응할 수 있다. 본 보고서와 함께 오픈소스 코드 및 학습 체크포인트를 공개함으로써 연구 커뮤니티를 위한 고품질 생성 모델의 개발과 접근성을 크게 진전시킬 수 있기를 기대한다.