VSTAR: Infermieristica Temporale Generativa per la Sintesi di Video Dinamici più Lunghi
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis
March 20, 2024
Autori: Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
cs.AI
Abstract
Nonostante i significativi progressi nel campo della sintesi testo-video (T2V), i modelli di diffusione T2V open-source faticano a generare video più lunghi con contenuti dinamici e in evoluzione. Tendono a sintetizzare video quasi statici, ignorando i necessari cambiamenti visivi nel tempo impliciti nel prompt testuale. Allo stesso tempo, il ridimensionamento di questi modelli per consentire la sintesi di video più lunghi e dinamici spesso rimane computazionalmente intrattabile. Per affrontare questa sfida, introduciamo il concetto di Generative Temporal Nursing (GTN), in cui miriamo a modificare il processo generativo al volo durante l'inferenza per migliorare il controllo sulla dinamica temporale e consentire la generazione di video più lunghi. Proponiamo un metodo per GTN, denominato VSTAR, che consiste in due componenti chiave: 1) Video Synopsis Prompting (VSP) - la generazione automatica di una sinossi video basata sul prompt singolo originale sfruttando LLM, che fornisce una guida testuale accurata ai diversi stati visivi di video più lunghi, e 2) Temporal Attention Regularization (TAR) - una tecnica di regolarizzazione per affinare le unità di attenzione temporale dei modelli di diffusione T2V pre-addestrati, che consente il controllo sulla dinamica del video. Sperimentalmente dimostriamo la superiorità dell'approccio proposto nella generazione di video più lunghi e visivamente accattivanti rispetto ai modelli T2V open-source esistenti. Inoltre, analizziamo le mappe di attenzione temporale realizzate con e senza VSTAR, dimostrando l'importanza di applicare il nostro metodo per mitigare la trascuratezza del cambiamento visivo desiderato nel tempo.
English
Despite tremendous progress in the field of text-to-video (T2V) synthesis,
open-sourced T2V diffusion models struggle to generate longer videos with
dynamically varying and evolving content. They tend to synthesize quasi-static
videos, ignoring the necessary visual change-over-time implied in the text
prompt. At the same time, scaling these models to enable longer, more dynamic
video synthesis often remains computationally intractable. To address this
challenge, we introduce the concept of Generative Temporal Nursing (GTN), where
we aim to alter the generative process on the fly during inference to improve
control over the temporal dynamics and enable generation of longer videos. We
propose a method for GTN, dubbed VSTAR, which consists of two key ingredients:
1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis
based on the original single prompt leveraging LLMs, which gives accurate
textual guidance to different visual states of longer videos, and 2) Temporal
Attention Regularization (TAR) - a regularization technique to refine the
temporal attention units of the pre-trained T2V diffusion models, which enables
control over the video dynamics. We experimentally showcase the superiority of
the proposed approach in generating longer, visually appealing videos over
existing open-sourced T2V models. We additionally analyze the temporal
attention maps realized with and without VSTAR, demonstrating the importance of
applying our method to mitigate neglect of the desired visual change over time.