VSTAR: Geração Temporal de Enfermagem para Síntese de Vídeos Dinâmicos de Maior Duração
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis
March 20, 2024
Autores: Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
cs.AI
Resumo
Apesar dos avanços significativos no campo da síntese de texto para vídeo (T2V), os modelos de difusão T2V de código aberto enfrentam dificuldades para gerar vídeos mais longos com conteúdo dinamicamente variável e em evolução. Eles tendem a sintetizar vídeos quase estáticos, ignorando as mudanças visuais necessárias ao longo do tempo implícitas no prompt de texto. Ao mesmo tempo, escalonar esses modelos para permitir a síntese de vídeos mais longos e dinâmicos frequentemente permanece computacionalmente intratável. Para enfrentar esse desafio, introduzimos o conceito de Cuidado Temporal Generativo (GTN), onde buscamos alterar o processo generativo em tempo real durante a inferência para melhorar o controle sobre a dinâmica temporal e permitir a geração de vídeos mais longos. Propomos um método para GTN, denominado VSTAR, que consiste em dois componentes principais: 1) Prompt de Sinopse de Vídeo (VSP) - geração automática de uma sinopse de vídeo com base no prompt único original, aproveitando LLMs, que fornece orientação textual precisa para diferentes estados visuais de vídeos mais longos, e 2) Regularização de Atenção Temporal (TAR) - uma técnica de regularização para refinar as unidades de atenção temporal dos modelos de difusão T2V pré-treinados, permitindo o controle sobre a dinâmica do vídeo. Experimentalmente, demonstramos a superioridade da abordagem proposta na geração de vídeos mais longos e visualmente atraentes em comparação com os modelos T2V de código aberto existentes. Além disso, analisamos os mapas de atenção temporal realizados com e sem VSTAR, destacando a importância de aplicar nosso método para mitigar a negligência das mudanças visuais desejadas ao longo do tempo.
English
Despite tremendous progress in the field of text-to-video (T2V) synthesis,
open-sourced T2V diffusion models struggle to generate longer videos with
dynamically varying and evolving content. They tend to synthesize quasi-static
videos, ignoring the necessary visual change-over-time implied in the text
prompt. At the same time, scaling these models to enable longer, more dynamic
video synthesis often remains computationally intractable. To address this
challenge, we introduce the concept of Generative Temporal Nursing (GTN), where
we aim to alter the generative process on the fly during inference to improve
control over the temporal dynamics and enable generation of longer videos. We
propose a method for GTN, dubbed VSTAR, which consists of two key ingredients:
1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis
based on the original single prompt leveraging LLMs, which gives accurate
textual guidance to different visual states of longer videos, and 2) Temporal
Attention Regularization (TAR) - a regularization technique to refine the
temporal attention units of the pre-trained T2V diffusion models, which enables
control over the video dynamics. We experimentally showcase the superiority of
the proposed approach in generating longer, visually appealing videos over
existing open-sourced T2V models. We additionally analyze the temporal
attention maps realized with and without VSTAR, demonstrating the importance of
applying our method to mitigate neglect of the desired visual change over time.