ChatPaper.aiChatPaper

FancyVideo: Naar dynamische en consistente videogeneratie via tekstuele begeleiding tussen frames

FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

August 15, 2024
Auteurs: Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
cs.AI

Samenvatting

Het synthetiseren van video's met rijke bewegingen en temporele consistentie blijft een uitdaging in kunstmatige intelligentie, vooral bij het omgaan met langere tijdsduren. Bestaande tekst-naar-video (T2V) modellen maken vaak gebruik van ruimtelijke cross-attentie voor tekstcontrole, waarbij verschillende frame-generaties op equivalente wijze worden begeleid zonder framespecifieke tekstuele begeleiding. Hierdoor is het vermogen van het model om de temporele logica in prompts te begrijpen en video's met samenhangende beweging te genereren beperkt. Om deze beperking aan te pakken, introduceren we FancyVideo, een innovatieve videogenerator die het bestaande tekstcontrolemechanisme verbetert met de goed ontworpen Cross-frame Textual Guidance Module (CTGM). Specifiek integreert CTGM de Temporal Information Injector (TII), Temporal Affinity Refiner (TAR) en Temporal Feature Booster (TFB) respectievelijk aan het begin, midden en einde van cross-attentie om framespecifieke tekstuele begeleiding te bereiken. Ten eerste injecteert TII framespecifieke informatie uit latente kenmerken in tekstcondities, waardoor cross-frame tekstcondities worden verkregen. Vervolgens verfijnt TAR de correlatiematrix tussen cross-frame tekstcondities en latente kenmerken langs de tijdsdimensie. Tot slot versterkt TFB de temporele consistentie van latente kenmerken. Uitgebreide experimenten, bestaande uit zowel kwantitatieve als kwalitatieve evaluaties, tonen de effectiviteit van FancyVideo aan. Onze aanpak behaalt state-of-the-art T2V-generatieresultaten op de EvalCrafter-benchmark en vergemakkelijkt de synthese van dynamische en consistente video's. De video-resultaten zijn beschikbaar op https://fancyvideo.github.io/, en we zullen onze code en modelgewichten openbaar beschikbaar maken.
English
Synthesizing motion-rich and temporally consistent videos remains a challenge in artificial intelligence, especially when dealing with extended durations. Existing text-to-video (T2V) models commonly employ spatial cross-attention for text control, equivalently guiding different frame generations without frame-specific textual guidance. Thus, the model's capacity to comprehend the temporal logic conveyed in prompts and generate videos with coherent motion is restricted. To tackle this limitation, we introduce FancyVideo, an innovative video generator that improves the existing text-control mechanism with the well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner (TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of cross-attention, respectively, to achieve frame-specific textual guidance. Firstly, TII injects frame-specific information from latent features into text conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines the correlation matrix between cross-frame textual conditions and latent features along the time dimension. Lastly, TFB boosts the temporal consistency of latent features. Extensive experiments comprising both quantitative and qualitative evaluations demonstrate the effectiveness of FancyVideo. Our approach achieves state-of-the-art T2V generation results on the EvalCrafter benchmark and facilitates the synthesis of dynamic and consistent videos. The video show results can be available at https://fancyvideo.github.io/, and we will make our code and model weights publicly available.
PDF173November 26, 2024