papers.description
Ce rapport présente Kandinsky 5.0, une famille de modèles de fondation de pointe pour la synthèse d'images haute résolution et de vidéos de 10 secondes. Le cadre comprend trois modèles principaux : Kandinsky 5.0 Image Lite - une série de modèles de génération d'images de 6 milliards de paramètres, Kandinsky 5.0 Video Lite - des modèles rapides et légers de 2 milliards de paramètres pour la conversion de texte en vidéo et d'image en vidéo, et Kandinsky 5.0 Video Pro - des modèles de 19 milliards de paramètres qui atteignent une qualité supérieure de génération vidéo. Nous fournissons un examen complet du cycle de vie de la curation des données - incluant la collecte, le traitement, le filtrage et le clustering - pour le pipeline d'entraînement en plusieurs étapes qui implique un pré-entraînement extensif et intègre des techniques d'amélioration de la qualité telles que le fine-tuning auto-supervisé (SFT) et le post-entraînement basé sur l'apprentissage par renforcement (RL). Nous présentons également de nouvelles optimisations architecturales, d'entraînement et d'inférence qui permettent à Kandinsky 5.0 d'atteindre des vitesses de génération élevées et des performances de pointe dans diverses tâches, comme le démontre l'évaluation humaine. En tant que cadre génératif à grande échelle et accessible au public, Kandinsky 5.0 exploite pleinement le potentiel de son pré-entraînement et des étapes suivantes pour être adapté à une large gamme d'applications génératives. Nous espérons que ce rapport, ainsi que la publication de notre code open-source et des points de contrôle d'entraînement, contribueront de manière significative au développement et à l'accessibilité de modèles génératifs de haute qualité pour la communauté de recherche.