STIV : Génération de Vidéos Conditionnée par du Texte et des Images à Échelle ScalableSTIV: Scalable Text and Image Conditioned Video Generation
Le domaine de la génération de vidéos a fait des avancées remarquables, cependant il reste un besoin urgent d'une recette claire et systématique pouvant guider le développement de modèles robustes et évolutifs. Dans ce travail, nous présentons une étude approfondie explorant de manière systématique l'interaction des architectures de modèles, des recettes d'entraînement et des stratégies de curation des données, aboutissant à une méthode simple et évolutive de génération de vidéos conditionnées par du texte et des images, nommée STIV. Notre cadre intègre la condition d'image dans un Transformateur de Diffusion (DiT) via le remplacement de trames, tout en incorporant la condition de texte via un guidage conjoint sans classificateur conditionnel image-texte. Cette conception permet à STIV d'effectuer simultanément des tâches de texte-à-vidéo (T2V) et de texte-image-à-vidéo (TI2V). De plus, STIV peut être facilement étendu à diverses applications telles que la prédiction de vidéos, l'interpolation de trames, la génération multi-vues et la génération de longues vidéos, etc. Avec des études d'ablation complètes sur T2I, T2V et TI2V, STIV démontre de solides performances, malgré sa conception simple. Un modèle de 8,7 milliards de paramètres avec une résolution de 512 atteint 83,1 sur la tâche VBench T2V, surpassant à la fois les modèles open source et propriétaires de premier plan tels que CogVideoX-5B, Pika, Kling et Gen-3. Le modèle de même taille obtient également un résultat de pointe de 90,1 sur la tâche VBench I2V à une résolution de 512. En fournissant une recette transparente et extensible pour la construction de modèles de génération de vidéos de pointe, nous visons à renforcer la recherche future et à accélérer les progrès vers des solutions de génération de vidéos plus polyvalentes et fiables.