Make-Your-Video : Génération de vidéos personnalisées à l'aide de guidages textuels et structurels
Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance
June 1, 2023
Auteurs: Jinbo Xing, Menghan Xia, Yuxin Liu, Yuechen Zhang, Yong Zhang, Yingqing He, Hanyuan Liu, Haoxin Chen, Xiaodong Cun, Xintao Wang, Ying Shan, Tien-Tsin Wong
cs.AI
Résumé
Créer une vidéo vivante à partir d'un événement ou d'un scénario imaginé est une expérience véritablement fascinante. Les récents progrès dans la synthèse texte-vidéo ont révélé le potentiel d'y parvenir en utilisant uniquement des prompts. Bien que le texte soit pratique pour transmettre le contexte global d'une scène, il peut s'avérer insuffisant pour un contrôle précis. Dans cet article, nous explorons la génération de vidéos personnalisées en utilisant le texte comme description contextuelle et la structure de mouvement (par exemple, la profondeur image par image) comme guide concret. Notre méthode, baptisée Make-Your-Video, implique une génération vidéo conditionnelle conjointe utilisant un modèle de diffusion latente pré-entraîné pour la synthèse d'images fixes, puis adapté pour la génération vidéo grâce à l'introduction de modules temporels. Ce schéma d'apprentissage en deux étapes réduit non seulement les ressources de calcul nécessaires, mais améliore également les performances en transférant les concepts riches disponibles dans les ensembles de données d'images uniquement vers la génération vidéo. De plus, nous utilisons une stratégie de masque d'attention causale simple mais efficace pour permettre la synthèse de vidéos plus longues, ce qui atténue efficacement la dégradation potentielle de la qualité. Les résultats expérimentaux montrent la supériorité de notre méthode par rapport aux approches existantes, en particulier en termes de cohérence temporelle et de fidélité aux directives de l'utilisateur. En outre, notre modèle permet plusieurs applications intrigantes qui démontrent un potentiel d'utilisation pratique.
English
Creating a vivid video from the event or scenario in our imagination is a
truly fascinating experience. Recent advancements in text-to-video synthesis
have unveiled the potential to achieve this with prompts only. While text is
convenient in conveying the overall scene context, it may be insufficient to
control precisely. In this paper, we explore customized video generation by
utilizing text as context description and motion structure (e.g. frame-wise
depth) as concrete guidance. Our method, dubbed Make-Your-Video, involves
joint-conditional video generation using a Latent Diffusion Model that is
pre-trained for still image synthesis and then promoted for video generation
with the introduction of temporal modules. This two-stage learning scheme not
only reduces the computing resources required, but also improves the
performance by transferring the rich concepts available in image datasets
solely into video generation. Moreover, we use a simple yet effective causal
attention mask strategy to enable longer video synthesis, which mitigates the
potential quality degradation effectively. Experimental results show the
superiority of our method over existing baselines, particularly in terms of
temporal coherence and fidelity to users' guidance. In addition, our model
enables several intriguing applications that demonstrate potential for
practical usage.