ChatPaper.aiChatPaper

VideoTetris : Vers une génération vidéo compositionnelle à partir de texte

VideoTetris: Towards Compositional Text-to-Video Generation

June 6, 2024
Auteurs: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI

Résumé

Les modèles de diffusion ont démontré un grand succès dans la génération de texte à vidéo (T2V). Cependant, les méthodes existantes peuvent rencontrer des difficultés lorsqu'il s'agit de gérer des scénarios complexes de génération de vidéos (longues) impliquant plusieurs objets ou des changements dynamiques dans le nombre d'objets. Pour surmonter ces limitations, nous proposons VideoTetris, un nouveau cadre permettant une génération T2V compositionnelle. Plus précisément, nous proposons une diffusion compositionnelle spatio-temporelle pour suivre avec précision les sémantiques textuelles complexes en manipulant et en composant les cartes d'attention des réseaux de débruitage spatialement et temporellement. De plus, nous proposons un prétraitement amélioré des données vidéo pour renforcer les données d'entraînement concernant la dynamique du mouvement et la compréhension des prompts, équipé d'un nouveau mécanisme d'attention par cadre de référence pour améliorer la cohérence de la génération vidéo auto-régressive. Des expériences approfondies démontrent que notre VideoTetris obtient des résultats qualitatifs et quantitatifs impressionnants dans la génération T2V compositionnelle. Le code est disponible à l'adresse : https://github.com/YangLing0818/VideoTetris.
English
Diffusion models have demonstrated great success in text-to-video (T2V) generation. However, existing methods may face challenges when handling complex (long) video generation scenarios that involve multiple objects or dynamic changes in object numbers. To address these limitations, we propose VideoTetris, a novel framework that enables compositional T2V generation. Specifically, we propose spatio-temporal compositional diffusion to precisely follow complex textual semantics by manipulating and composing the attention maps of denoising networks spatially and temporally. Moreover, we propose an enhanced video data preprocessing to enhance the training data regarding motion dynamics and prompt understanding, equipped with a new reference frame attention mechanism to improve the consistency of auto-regressive video generation. Extensive experiments demonstrate that our VideoTetris achieves impressive qualitative and quantitative results in compositional T2V generation. Code is available at: https://github.com/YangLing0818/VideoTetris

Summary

AI-Generated Summary

PDF261December 8, 2024