VSTAR: Infermieristica Temporale Generativa per la Sintesi di Video Dinamici più Lunghi

Abstract

Nonostante i significativi progressi nel campo della sintesi testo-video (T2V), i modelli di diffusione T2V open-source faticano a generare video più lunghi con contenuti dinamici e in evoluzione. Tendono a sintetizzare video quasi statici, ignorando i necessari cambiamenti visivi nel tempo impliciti nel prompt testuale. Allo stesso tempo, il ridimensionamento di questi modelli per consentire la sintesi di video più lunghi e dinamici spesso rimane computazionalmente intrattabile. Per affrontare questa sfida, introduciamo il concetto di Generative Temporal Nursing (GTN), in cui miriamo a modificare il processo generativo al volo durante l'inferenza per migliorare il controllo sulla dinamica temporale e consentire la generazione di video più lunghi. Proponiamo un metodo per GTN, denominato VSTAR, che consiste in due componenti chiave: 1) Video Synopsis Prompting (VSP) - la generazione automatica di una sinossi video basata sul prompt singolo originale sfruttando LLM, che fornisce una guida testuale accurata ai diversi stati visivi di video più lunghi, e 2) Temporal Attention Regularization (TAR) - una tecnica di regolarizzazione per affinare le unità di attenzione temporale dei modelli di diffusione T2V pre-addestrati, che consente il controllo sulla dinamica del video. Sperimentalmente dimostriamo la superiorità dell'approccio proposto nella generazione di video più lunghi e visivamente accattivanti rispetto ai modelli T2V open-source esistenti. Inoltre, analizziamo le mappe di attenzione temporale realizzate con e senza VSTAR, dimostrando l'importanza di applicare il nostro metodo per mitigare la trascuratezza del cambiamento visivo desiderato nel tempo.

English

Despite tremendous progress in the field of text-to-video (T2V) synthesis, open-sourced T2V diffusion models struggle to generate longer videos with dynamically varying and evolving content. They tend to synthesize quasi-static videos, ignoring the necessary visual change-over-time implied in the text prompt. At the same time, scaling these models to enable longer, more dynamic video synthesis often remains computationally intractable. To address this challenge, we introduce the concept of Generative Temporal Nursing (GTN), where we aim to alter the generative process on the fly during inference to improve control over the temporal dynamics and enable generation of longer videos. We propose a method for GTN, dubbed VSTAR, which consists of two key ingredients: 1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis based on the original single prompt leveraging LLMs, which gives accurate textual guidance to different visual states of longer videos, and 2) Temporal Attention Regularization (TAR) - a regularization technique to refine the temporal attention units of the pre-trained T2V diffusion models, which enables control over the video dynamics. We experimentally showcase the superiority of the proposed approach in generating longer, visually appealing videos over existing open-sourced T2V models. We additionally analyze the temporal attention maps realized with and without VSTAR, demonstrating the importance of applying our method to mitigate neglect of the desired visual change over time.

VSTAR: Infermieristica Temporale Generativa per la Sintesi di Video Dinamici più Lunghi

VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

Abstract

Support