FancyVideo: Rumo à Geração Dinâmica e Consistente de Vídeo por Meio de Orientação Textual entre Quadros
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance
August 15, 2024
Autores: Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
cs.AI
Resumo
A síntese de vídeos ricos em movimento e temporalmente consistentes continua sendo um desafio em inteligência artificial, especialmente ao lidar com durações prolongadas. Modelos existentes de texto para vídeo (T2V) comumente empregam atenção cruzada espacial para controle de texto, guiando de forma equivalente diferentes gerações de quadros sem orientação textual específica por quadro. Assim, a capacidade do modelo de compreender a lógica temporal transmitida nas instruções e gerar vídeos com movimento coerente é restrita. Para enfrentar essa limitação, apresentamos o FancyVideo, um gerador de vídeo inovador que aprimora o mecanismo de controle de texto existente com o bem projetado Módulo de Orientação Textual entre Quadros Cruzados (CTGM). Especificamente, o CTGM incorpora o Injetor de Informação Temporal (TII), o Refinador de Afinidade Temporal (TAR) e o Impulsionador de Características Temporais (TFB) no início, meio e fim da atenção cruzada, respectivamente, para alcançar orientação textual específica por quadro. Em primeiro lugar, o TII injeta informações específicas do quadro de características latentes nas condições de texto, obtendo assim condições textuais entre quadros. Em seguida, o TAR refina a matriz de correlação entre as condições textuais entre quadros e características latentes ao longo da dimensão temporal. Por fim, o TFB aumenta a consistência temporal das características latentes. Experimentos extensivos, incluindo avaliações quantitativas e qualitativas, demonstram a eficácia do FancyVideo. Nossa abordagem alcança resultados de geração T2V de ponta no benchmark EvalCrafter e facilita a síntese de vídeos dinâmicos e consistentes. Os resultados do vídeo podem ser acessados em https://fancyvideo.github.io/, e disponibilizaremos publicamente nosso código e pesos do modelo.
English
Synthesizing motion-rich and temporally consistent videos remains a challenge
in artificial intelligence, especially when dealing with extended durations.
Existing text-to-video (T2V) models commonly employ spatial cross-attention for
text control, equivalently guiding different frame generations without
frame-specific textual guidance. Thus, the model's capacity to comprehend the
temporal logic conveyed in prompts and generate videos with coherent motion is
restricted. To tackle this limitation, we introduce FancyVideo, an innovative
video generator that improves the existing text-control mechanism with the
well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM
incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner
(TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of
cross-attention, respectively, to achieve frame-specific textual guidance.
Firstly, TII injects frame-specific information from latent features into text
conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines
the correlation matrix between cross-frame textual conditions and latent
features along the time dimension. Lastly, TFB boosts the temporal consistency
of latent features. Extensive experiments comprising both quantitative and
qualitative evaluations demonstrate the effectiveness of FancyVideo. Our
approach achieves state-of-the-art T2V generation results on the EvalCrafter
benchmark and facilitates the synthesis of dynamic and consistent videos. The
video show results can be available at https://fancyvideo.github.io/, and we
will make our code and model weights publicly available.Summary
AI-Generated Summary