FancyVideo: Hacia la Generación Dinámica y Consistente de Videos a través de la Orientación Textual entre Fotogramas.
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance
August 15, 2024
Autores: Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
cs.AI
Resumen
La síntesis de videos ricos en movimiento y temporalmente consistentes sigue siendo un desafío en inteligencia artificial, especialmente al tratar con duraciones prolongadas. Los modelos existentes de texto a video (T2V) comúnmente emplean atención cruzada espacial para el control de texto, guiando de manera equivalente diferentes generaciones de fotogramas sin una guía textual específica por fotograma. Por lo tanto, la capacidad del modelo para comprender la lógica temporal transmitida en las indicaciones y generar videos con movimiento coherente se ve restringida. Para abordar esta limitación, presentamos FancyVideo, un generador de videos innovador que mejora el mecanismo de control de texto existente con el bien diseñado Módulo de Guía Textual entre Fotogramas Cruzados (CTGM). Específicamente, CTGM incorpora el Inyector de Información Temporal (TII), el Refinador de Afinidad Temporal (TAR) y el Potenciador de Características Temporales (TFB) al principio, en medio y al final de la atención cruzada, respectivamente, para lograr una guía textual específica por fotograma. En primer lugar, TII inyecta información específica de fotogramas de características latentes en condiciones de texto, obteniendo así condiciones textuales entre fotogramas cruzados. Luego, TAR refina la matriz de correlación entre las condiciones textuales entre fotogramas cruzados y las características latentes a lo largo de la dimensión temporal. Por último, TFB mejora la consistencia temporal de las características latentes. Experimentos extensos que comprenden evaluaciones tanto cuantitativas como cualitativas demuestran la efectividad de FancyVideo. Nuestro enfoque logra resultados de generación T2V de vanguardia en el conjunto de datos de evaluación EvalCrafter y facilita la síntesis de videos dinámicos y consistentes. Los resultados del video pueden estar disponibles en https://fancyvideo.github.io/, y haremos públicos nuestro código y los pesos del modelo.
English
Synthesizing motion-rich and temporally consistent videos remains a challenge
in artificial intelligence, especially when dealing with extended durations.
Existing text-to-video (T2V) models commonly employ spatial cross-attention for
text control, equivalently guiding different frame generations without
frame-specific textual guidance. Thus, the model's capacity to comprehend the
temporal logic conveyed in prompts and generate videos with coherent motion is
restricted. To tackle this limitation, we introduce FancyVideo, an innovative
video generator that improves the existing text-control mechanism with the
well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM
incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner
(TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of
cross-attention, respectively, to achieve frame-specific textual guidance.
Firstly, TII injects frame-specific information from latent features into text
conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines
the correlation matrix between cross-frame textual conditions and latent
features along the time dimension. Lastly, TFB boosts the temporal consistency
of latent features. Extensive experiments comprising both quantitative and
qualitative evaluations demonstrate the effectiveness of FancyVideo. Our
approach achieves state-of-the-art T2V generation results on the EvalCrafter
benchmark and facilitates the synthesis of dynamic and consistent videos. The
video show results can be available at https://fancyvideo.github.io/, and we
will make our code and model weights publicly available.Summary
AI-Generated Summary