ChatPaper.aiChatPaper

STIV : Génération de Vidéos Conditionnée par du Texte et des Images à Échelle Scalable

STIV: Scalable Text and Image Conditioned Video Generation

December 10, 2024
Auteurs: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
cs.AI

Résumé

Le domaine de la génération de vidéos a fait des avancées remarquables, cependant il reste un besoin urgent d'une recette claire et systématique pouvant guider le développement de modèles robustes et évolutifs. Dans ce travail, nous présentons une étude approfondie explorant de manière systématique l'interaction des architectures de modèles, des recettes d'entraînement et des stratégies de curation des données, aboutissant à une méthode simple et évolutive de génération de vidéos conditionnées par du texte et des images, nommée STIV. Notre cadre intègre la condition d'image dans un Transformateur de Diffusion (DiT) via le remplacement de trames, tout en incorporant la condition de texte via un guidage conjoint sans classificateur conditionnel image-texte. Cette conception permet à STIV d'effectuer simultanément des tâches de texte-à-vidéo (T2V) et de texte-image-à-vidéo (TI2V). De plus, STIV peut être facilement étendu à diverses applications telles que la prédiction de vidéos, l'interpolation de trames, la génération multi-vues et la génération de longues vidéos, etc. Avec des études d'ablation complètes sur T2I, T2V et TI2V, STIV démontre de solides performances, malgré sa conception simple. Un modèle de 8,7 milliards de paramètres avec une résolution de 512 atteint 83,1 sur la tâche VBench T2V, surpassant à la fois les modèles open source et propriétaires de premier plan tels que CogVideoX-5B, Pika, Kling et Gen-3. Le modèle de même taille obtient également un résultat de pointe de 90,1 sur la tâche VBench I2V à une résolution de 512. En fournissant une recette transparente et extensible pour la construction de modèles de génération de vidéos de pointe, nous visons à renforcer la recherche future et à accélérer les progrès vers des solutions de génération de vidéos plus polyvalentes et fiables.
English
The field of video generation has made remarkable advancements, yet there remains a pressing need for a clear, systematic recipe that can guide the development of robust and scalable models. In this work, we present a comprehensive study that systematically explores the interplay of model architectures, training recipes, and data curation strategies, culminating in a simple and scalable text-image-conditioned video generation method, named STIV. Our framework integrates image condition into a Diffusion Transformer (DiT) through frame replacement, while incorporating text conditioning via a joint image-text conditional classifier-free guidance. This design enables STIV to perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks simultaneously. Additionally, STIV can be easily extended to various applications, such as video prediction, frame interpolation, multi-view generation, and long video generation, etc. With comprehensive ablation studies on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V, surpassing both leading open and closed-source models like CogVideoX-5B, Pika, Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and extensible recipe for building cutting-edge video generation models, we aim to empower future research and accelerate progress toward more versatile and reliable video generation solutions.

Summary

AI-Generated Summary

PDF742December 11, 2024