VSTAR: Generatieve Temporele Verzorging voor Langere Dynamische Video Synthese
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis
March 20, 2024
Auteurs: Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
cs.AI
Samenvatting
Ondanks enorme vooruitgang op het gebied van tekst-naar-video (T2V) synthese,
worstelen open-source T2V diffusiemodellen met het genereren van langere video's
met dynamisch variërende en evoluerende inhoud. Ze hebben de neiging om quasi-statische
video's te synthetiseren, waarbij ze de noodzakelijke visuele verandering in de tijd die in de tekstprompt
wordt geïmpliceerd, negeren. Tegelijkertijd blijft het schalen van deze modellen om langere, meer dynamische
video's te genereren vaak computationeel onhaalbaar. Om deze uitdaging aan te pakken, introduceren we het concept
van Generatieve Temporele Verzorging (GTN), waarbij we ernaar streven het generatieve proces tijdens de inferentie
aan te passen om de controle over de temporele dynamiek te verbeteren en het genereren van langere video's mogelijk
te maken. We stellen een methode voor GTN voor, genaamd VSTAR, die uit twee belangrijke componenten bestaat:
1) Video Synopsis Prompting (VSP) - automatische generatie van een videosynopsis op basis van de oorspronkelijke
enkele prompt met behulp van LLM's, die nauwkeurige tekstuele begeleiding biedt aan verschillende visuele toestanden
van langere video's, en 2) Temporele Aandacht Regularisatie (TAR) - een regularisatietechniek om de temporele
aandachtseenheden van de vooraf getrainde T2V diffusiemodellen te verfijnen, waardoor controle over de videodynamiek
mogelijk wordt. We tonen experimenteel de superioriteit aan van de voorgestelde aanpak in het genereren van langere,
visueel aantrekkelijke video's ten opzichte van bestaande open-source T2V-modellen. Daarnaast analyseren we de
temporele aandachtskenmerken die met en zonder VSTAR worden gerealiseerd, wat het belang aantoont van het toepassen
van onze methode om het negeren van de gewenste visuele verandering in de tijd te verminderen.
English
Despite tremendous progress in the field of text-to-video (T2V) synthesis,
open-sourced T2V diffusion models struggle to generate longer videos with
dynamically varying and evolving content. They tend to synthesize quasi-static
videos, ignoring the necessary visual change-over-time implied in the text
prompt. At the same time, scaling these models to enable longer, more dynamic
video synthesis often remains computationally intractable. To address this
challenge, we introduce the concept of Generative Temporal Nursing (GTN), where
we aim to alter the generative process on the fly during inference to improve
control over the temporal dynamics and enable generation of longer videos. We
propose a method for GTN, dubbed VSTAR, which consists of two key ingredients:
1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis
based on the original single prompt leveraging LLMs, which gives accurate
textual guidance to different visual states of longer videos, and 2) Temporal
Attention Regularization (TAR) - a regularization technique to refine the
temporal attention units of the pre-trained T2V diffusion models, which enables
control over the video dynamics. We experimentally showcase the superiority of
the proposed approach in generating longer, visually appealing videos over
existing open-sourced T2V models. We additionally analyze the temporal
attention maps realized with and without VSTAR, demonstrating the importance of
applying our method to mitigate neglect of the desired visual change over time.