FancyVideo: Verso una Generazione Video Dinamica e Coerente tramite Guida Testuale Inter-fotogramma
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance
August 15, 2024
Autori: Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
cs.AI
Abstract
La sintesi di video ricchi di movimento e temporalmente coerenti rimane una sfida nell'intelligenza artificiale, specialmente quando si tratta di durate estese. I modelli esistenti di testo-a-video (T2V) comunemente impiegano l'attenzione incrociata spaziale per il controllo del testo, guidando in modo equivalente la generazione di diversi fotogrammi senza una guida testuale specifica per ciascun fotogramma. Di conseguenza, la capacità del modello di comprendere la logica temporale espressa nei prompt e di generare video con movimenti coerenti è limitata. Per affrontare questa limitazione, introduciamo FancyVideo, un innovativo generatore di video che migliora il meccanismo di controllo del testo esistente con il modulo ben progettato di Guida Testuale Inter-fotogramma (CTGM). Nello specifico, CTGM incorpora l'Iniettore di Informazioni Temporali (TII), il Raffinatore di Affinità Temporale (TAR) e il Potenziatore di Caratteristiche Temporali (TFB) rispettivamente all'inizio, al centro e alla fine dell'attenzione incrociata, per ottenere una guida testuale specifica per ciascun fotogramma. In primo luogo, TII inietta informazioni specifiche per fotogramma dalle caratteristiche latenti nelle condizioni testuali, ottenendo così condizioni testuali inter-fotogramma. Successivamente, TAR raffina la matrice di correlazione tra le condizioni testuali inter-fotogramma e le caratteristiche latenti lungo la dimensione temporale. Infine, TFB potenzia la coerenza temporale delle caratteristiche latenti. Esperimenti estensivi comprendenti valutazioni sia quantitative che qualitative dimostrano l'efficacia di FancyVideo. Il nostro approccio raggiunge risultati all'avanguardia nella generazione T2V sul benchmark EvalCrafter e facilita la sintesi di video dinamici e coerenti. I risultati dei video sono disponibili all'indirizzo https://fancyvideo.github.io/, e renderemo pubblicamente disponibili il nostro codice e i pesi del modello.
English
Synthesizing motion-rich and temporally consistent videos remains a challenge
in artificial intelligence, especially when dealing with extended durations.
Existing text-to-video (T2V) models commonly employ spatial cross-attention for
text control, equivalently guiding different frame generations without
frame-specific textual guidance. Thus, the model's capacity to comprehend the
temporal logic conveyed in prompts and generate videos with coherent motion is
restricted. To tackle this limitation, we introduce FancyVideo, an innovative
video generator that improves the existing text-control mechanism with the
well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM
incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner
(TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of
cross-attention, respectively, to achieve frame-specific textual guidance.
Firstly, TII injects frame-specific information from latent features into text
conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines
the correlation matrix between cross-frame textual conditions and latent
features along the time dimension. Lastly, TFB boosts the temporal consistency
of latent features. Extensive experiments comprising both quantitative and
qualitative evaluations demonstrate the effectiveness of FancyVideo. Our
approach achieves state-of-the-art T2V generation results on the EvalCrafter
benchmark and facilitates the synthesis of dynamic and consistent videos. The
video show results can be available at https://fancyvideo.github.io/, and we
will make our code and model weights publicly available.