FancyVideo : Vers une génération vidéo dynamique et cohérente grâce à un guidage textuel inter-images

papers.abstract

La synthèse de vidéos riches en mouvements et temporellement cohérentes reste un défi en intelligence artificielle, en particulier lorsqu'il s'agit de durées prolongées. Les modèles existants de texte-à-vidéo (T2V) utilisent couramment une attention croisée spatiale pour le contrôle textuel, guidant de manière équivalente la génération de différentes images sans guidage textuel spécifique à chaque image. Ainsi, la capacité du modèle à comprendre la logique temporelle véhiculée dans les prompts et à générer des vidéos avec des mouvements cohérents est limitée. Pour surmonter cette limitation, nous introduisons FancyVideo, un générateur de vidéos innovant qui améliore le mécanisme de contrôle textuel existant avec le module de guidage textuel inter-images bien conçu (CTGM). Plus précisément, le CTGM intègre l'injecteur d'informations temporelles (TII), le raffineur d'affinité temporelle (TAR) et le booster de caractéristiques temporelles (TFB) respectivement au début, au milieu et à la fin de l'attention croisée, pour obtenir un guidage textuel spécifique à chaque image. Tout d'abord, le TII injecte des informations spécifiques à chaque image à partir des caractéristiques latentes dans les conditions textuelles, obtenant ainsi des conditions textuelles inter-images. Ensuite, le TAR affine la matrice de corrélation entre les conditions textuelles inter-images et les caractéristiques latentes le long de la dimension temporelle. Enfin, le TFB renforce la cohérence temporelle des caractéristiques latentes. Des expériences approfondies comprenant des évaluations quantitatives et qualitatives démontrent l'efficacité de FancyVideo. Notre approche atteint des résultats de génération T2V de pointe sur le benchmark EvalCrafter et facilite la synthèse de vidéos dynamiques et cohérentes. Les résultats vidéo sont disponibles à l'adresse https://fancyvideo.github.io/, et nous rendrons notre code et les poids du modèle publics.

English

Synthesizing motion-rich and temporally consistent videos remains a challenge in artificial intelligence, especially when dealing with extended durations. Existing text-to-video (T2V) models commonly employ spatial cross-attention for text control, equivalently guiding different frame generations without frame-specific textual guidance. Thus, the model's capacity to comprehend the temporal logic conveyed in prompts and generate videos with coherent motion is restricted. To tackle this limitation, we introduce FancyVideo, an innovative video generator that improves the existing text-control mechanism with the well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner (TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of cross-attention, respectively, to achieve frame-specific textual guidance. Firstly, TII injects frame-specific information from latent features into text conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines the correlation matrix between cross-frame textual conditions and latent features along the time dimension. Lastly, TFB boosts the temporal consistency of latent features. Extensive experiments comprising both quantitative and qualitative evaluations demonstrate the effectiveness of FancyVideo. Our approach achieves state-of-the-art T2V generation results on the EvalCrafter benchmark and facilitates the synthesis of dynamic and consistent videos. The video show results can be available at https://fancyvideo.github.io/, and we will make our code and model weights publicly available.

FancyVideo : Vers une génération vidéo dynamique et cohérente grâce à un guidage textuel inter-images

FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

papers.abstract

Support