papers.description
Dieser Bericht stellt Kandinsky 5.0 vor, eine Familie von hochmodernen Foundation-Modellen für die Synthese hochauflösender Bilder und 10-sekündiger Videos. Das Framework umfasst drei zentrale Modellreihen: Kandinsky 5.0 Image Lite – eine Reihe von Bildgenerierungsmodellen mit 6 Milliarden Parametern, Kandinsky 5.0 Video Lite – schnelle und leichtgewichtige Text-zu-Video- und Bild-zu-Video-Modelle mit 2 Milliarden Parametern, und Kandinsky 5.0 Video Pro – Modelle mit 19 Milliarden Parametern, die eine überragende Videogenerierungsqualität erreichen. Wir bieten eine umfassende Übersicht über den Lebenszyklus der Datenkuratierung – einschließlich Sammlung, Verarbeitung, Filterung und Clustering – für die mehrstufige Trainingspipeline, die umfangreiches Pre-Training umfasst und qualitätssteigernde Techniken wie selbstüberwachtes Fein-Tuning (SFT) und verstärkungsbasiertes Post-Training (RL) integriert. Darüber hinaus präsentieren wir neuartige architektonische, Trainings- und Inferenzoptimierungen, die es Kandinsky 5.0 ermöglichen, hohe Generierungsgeschwindigkeiten und Spitzenleistungen in verschiedenen Aufgaben zu erreichen, wie durch menschliche Bewertungen demonstriert wird. Als groß angelegtes, öffentlich verfügbares generatives Framework nutzt Kandinsky 5.0 das volle Potenzial seines Pre-Trainings und der nachfolgenden Phasen, um für eine breite Palette generativer Anwendungen adaptiert zu werden. Wir hoffen, dass dieser Bericht zusammen mit der Veröffentlichung unseres Open-Source-Codes und der Trainings-Checkpoints die Entwicklung und Zugänglichkeit hochwertiger generativer Modelle für die Forschungsgemeinschaft erheblich vorantreiben wird.