ChatPaper.aiChatPaper

I2VGen-XL : Synthèse vidéo de haute qualité à partir d'images via des modèles de diffusion en cascade

I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

November 7, 2023
Auteurs: Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
cs.AI

Résumé

La synthèse vidéo a récemment réalisé des progrès remarquables, bénéficiant du développement rapide des modèles de diffusion. Cependant, elle rencontre encore des défis en termes de précision sémantique, de clarté et de continuité spatio-temporelle. Ces difficultés découlent principalement de la rareté des données texte-vidéo bien alignées et de la structure intrinsèque complexe des vidéos, ce qui rend difficile pour le modèle d'assurer simultanément une excellence sémantique et qualitative. Dans ce rapport, nous proposons une approche en cascade, I2VGen-XL, qui améliore les performances du modèle en découplant ces deux facteurs et garantit l'alignement des données d'entrée en utilisant des images statiques comme une forme de guidance cruciale. I2VGen-XL se compose de deux étapes : i) l'étape de base garantit une sémantique cohérente et préserve le contenu des images d'entrée en utilisant deux encodeurs hiérarchiques, et ii) l'étape de raffinement améliore les détails de la vidéo en incorporant un bref texte supplémentaire et augmente la résolution à 1280x720. Pour améliorer la diversité, nous avons collecté environ 35 millions de paires texte-vidéo en plan unique et 6 milliards de paires texte-image pour optimiser le modèle. De cette manière, I2VGen-XL peut simultanément améliorer la précision sémantique, la continuité des détails et la clarté des vidéos générées. À travers des expériences approfondies, nous avons étudié les principes sous-jacents d'I2VGen-XL et l'avons comparé aux meilleures méthodes actuelles, ce qui démontre son efficacité sur des données variées. Le code source et les modèles seront rendus publics à l'adresse https://i2vgen-xl.github.io.
English
Video synthesis has recently made remarkable strides benefiting from the rapid development of diffusion models. However, it still encounters challenges in terms of semantic accuracy, clarity and spatio-temporal continuity. They primarily arise from the scarcity of well-aligned text-video data and the complex inherent structure of videos, making it difficult for the model to simultaneously ensure semantic and qualitative excellence. In this report, we propose a cascaded I2VGen-XL approach that enhances model performance by decoupling these two factors and ensures the alignment of the input data by utilizing static images as a form of crucial guidance. I2VGen-XL consists of two stages: i) the base stage guarantees coherent semantics and preserves content from input images by using two hierarchical encoders, and ii) the refinement stage enhances the video's details by incorporating an additional brief text and improves the resolution to 1280times720. To improve the diversity, we collect around 35 million single-shot text-video pairs and 6 billion text-image pairs to optimize the model. By this means, I2VGen-XL can simultaneously enhance the semantic accuracy, continuity of details and clarity of generated videos. Through extensive experiments, we have investigated the underlying principles of I2VGen-XL and compared it with current top methods, which can demonstrate its effectiveness on diverse data. The source code and models will be publicly available at https://i2vgen-xl.github.io.
PDF353December 15, 2024