VideoTetris : Vers une génération vidéo compositionnelle à partir de texte
VideoTetris: Towards Compositional Text-to-Video Generation
June 6, 2024
Auteurs: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI
Résumé
Les modèles de diffusion ont démontré un grand succès dans la génération de texte à vidéo (T2V). Cependant, les méthodes existantes peuvent rencontrer des difficultés lorsqu'il s'agit de gérer des scénarios complexes de génération de vidéos (longues) impliquant plusieurs objets ou des changements dynamiques dans le nombre d'objets. Pour surmonter ces limitations, nous proposons VideoTetris, un nouveau cadre permettant une génération T2V compositionnelle. Plus précisément, nous proposons une diffusion compositionnelle spatio-temporelle pour suivre avec précision les sémantiques textuelles complexes en manipulant et en composant les cartes d'attention des réseaux de débruitage spatialement et temporellement. De plus, nous proposons un prétraitement amélioré des données vidéo pour renforcer les données d'entraînement concernant la dynamique du mouvement et la compréhension des prompts, équipé d'un nouveau mécanisme d'attention par cadre de référence pour améliorer la cohérence de la génération vidéo auto-régressive. Des expériences approfondies démontrent que notre VideoTetris obtient des résultats qualitatifs et quantitatifs impressionnants dans la génération T2V compositionnelle. Le code est disponible à l'adresse : https://github.com/YangLing0818/VideoTetris.
English
Diffusion models have demonstrated great success in text-to-video (T2V)
generation. However, existing methods may face challenges when handling complex
(long) video generation scenarios that involve multiple objects or dynamic
changes in object numbers. To address these limitations, we propose
VideoTetris, a novel framework that enables compositional T2V generation.
Specifically, we propose spatio-temporal compositional diffusion to precisely
follow complex textual semantics by manipulating and composing the attention
maps of denoising networks spatially and temporally. Moreover, we propose an
enhanced video data preprocessing to enhance the training data regarding motion
dynamics and prompt understanding, equipped with a new reference frame
attention mechanism to improve the consistency of auto-regressive video
generation. Extensive experiments demonstrate that our VideoTetris achieves
impressive qualitative and quantitative results in compositional T2V
generation. Code is available at: https://github.com/YangLing0818/VideoTetrisSummary
AI-Generated Summary