FancyVideo : Vers une génération vidéo dynamique et cohérente grâce à un guidage textuel inter-images
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance
August 15, 2024
Auteurs: Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
cs.AI
Résumé
La synthèse de vidéos riches en mouvements et temporellement cohérentes reste un défi en intelligence artificielle, en particulier lorsqu'il s'agit de durées prolongées. Les modèles existants de texte-à-vidéo (T2V) utilisent couramment une attention croisée spatiale pour le contrôle textuel, guidant de manière équivalente la génération de différentes images sans guidage textuel spécifique à chaque image. Ainsi, la capacité du modèle à comprendre la logique temporelle véhiculée dans les prompts et à générer des vidéos avec des mouvements cohérents est limitée. Pour surmonter cette limitation, nous introduisons FancyVideo, un générateur de vidéos innovant qui améliore le mécanisme de contrôle textuel existant avec le module de guidage textuel inter-images bien conçu (CTGM). Plus précisément, le CTGM intègre l'injecteur d'informations temporelles (TII), le raffineur d'affinité temporelle (TAR) et le booster de caractéristiques temporelles (TFB) respectivement au début, au milieu et à la fin de l'attention croisée, pour obtenir un guidage textuel spécifique à chaque image. Tout d'abord, le TII injecte des informations spécifiques à chaque image à partir des caractéristiques latentes dans les conditions textuelles, obtenant ainsi des conditions textuelles inter-images. Ensuite, le TAR affine la matrice de corrélation entre les conditions textuelles inter-images et les caractéristiques latentes le long de la dimension temporelle. Enfin, le TFB renforce la cohérence temporelle des caractéristiques latentes. Des expériences approfondies comprenant des évaluations quantitatives et qualitatives démontrent l'efficacité de FancyVideo. Notre approche atteint des résultats de génération T2V de pointe sur le benchmark EvalCrafter et facilite la synthèse de vidéos dynamiques et cohérentes. Les résultats vidéo sont disponibles à l'adresse https://fancyvideo.github.io/, et nous rendrons notre code et les poids du modèle publics.
English
Synthesizing motion-rich and temporally consistent videos remains a challenge
in artificial intelligence, especially when dealing with extended durations.
Existing text-to-video (T2V) models commonly employ spatial cross-attention for
text control, equivalently guiding different frame generations without
frame-specific textual guidance. Thus, the model's capacity to comprehend the
temporal logic conveyed in prompts and generate videos with coherent motion is
restricted. To tackle this limitation, we introduce FancyVideo, an innovative
video generator that improves the existing text-control mechanism with the
well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM
incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner
(TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of
cross-attention, respectively, to achieve frame-specific textual guidance.
Firstly, TII injects frame-specific information from latent features into text
conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines
the correlation matrix between cross-frame textual conditions and latent
features along the time dimension. Lastly, TFB boosts the temporal consistency
of latent features. Extensive experiments comprising both quantitative and
qualitative evaluations demonstrate the effectiveness of FancyVideo. Our
approach achieves state-of-the-art T2V generation results on the EvalCrafter
benchmark and facilitates the synthesis of dynamic and consistent videos. The
video show results can be available at https://fancyvideo.github.io/, and we
will make our code and model weights publicly available.Summary
AI-Generated Summary