ChatPaper.aiChatPaper

VSTAR : Génération temporelle assistée pour la synthèse de vidéos dynamiques de longue durée

VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

March 20, 2024
Auteurs: Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
cs.AI

Résumé

Malgré les progrès considérables dans le domaine de la synthèse texte-vidéo (T2V), les modèles de diffusion T2V open source peinent à générer des vidéos plus longues avec un contenu dynamiquement varié et évolutif. Ils ont tendance à synthétiser des vidéos quasi statiques, ignorant les changements visuels nécessaires au fil du temps suggérés par l'invite textuelle. Parallèlement, la mise à l'échelle de ces modèles pour permettre la synthèse de vidéos plus longues et plus dynamiques reste souvent irréalisable sur le plan computationnel. Pour relever ce défi, nous introduisons le concept de Nursing Temporel Génératif (GTN), où nous visons à modifier le processus génératif à la volée pendant l'inférence pour améliorer le contrôle des dynamiques temporelles et permettre la génération de vidéos plus longues. Nous proposons une méthode pour le GTN, appelée VSTAR, qui repose sur deux éléments clés : 1) l'Invite de Synopsis Vidéo (VSP) - la génération automatique d'un synopsis vidéo basé sur l'invite unique originale en exploitant les LLM, fournissant une guidance textuelle précise pour différents états visuels de vidéos plus longues, et 2) la Régularisation de l'Attention Temporelle (TAR) - une technique de régularisation pour affiner les unités d'attention temporelle des modèles de diffusion T2V pré-entraînés, permettant un contrôle sur la dynamique vidéo. Nous démontrons expérimentalement la supériorité de l'approche proposée pour générer des vidéos plus longues et visuellement attrayantes par rapport aux modèles T2V open source existants. Nous analysons également les cartes d'attention temporelle obtenues avec et sans VSTAR, mettant en évidence l'importance d'appliquer notre méthode pour atténuer la négligence des changements visuels souhaités au fil du temps.
English
Despite tremendous progress in the field of text-to-video (T2V) synthesis, open-sourced T2V diffusion models struggle to generate longer videos with dynamically varying and evolving content. They tend to synthesize quasi-static videos, ignoring the necessary visual change-over-time implied in the text prompt. At the same time, scaling these models to enable longer, more dynamic video synthesis often remains computationally intractable. To address this challenge, we introduce the concept of Generative Temporal Nursing (GTN), where we aim to alter the generative process on the fly during inference to improve control over the temporal dynamics and enable generation of longer videos. We propose a method for GTN, dubbed VSTAR, which consists of two key ingredients: 1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis based on the original single prompt leveraging LLMs, which gives accurate textual guidance to different visual states of longer videos, and 2) Temporal Attention Regularization (TAR) - a regularization technique to refine the temporal attention units of the pre-trained T2V diffusion models, which enables control over the video dynamics. We experimentally showcase the superiority of the proposed approach in generating longer, visually appealing videos over existing open-sourced T2V models. We additionally analyze the temporal attention maps realized with and without VSTAR, demonstrating the importance of applying our method to mitigate neglect of the desired visual change over time.

Summary

AI-Generated Summary

PDF93December 15, 2024