VSTAR: Cuidado Temporal Generativo para la Síntesis de Videos Dinámicos de Mayor Duración
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis
March 20, 2024
Autores: Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
cs.AI
Resumen
A pesar del progreso significativo en el campo de la síntesis de texto a video (T2V), los modelos de difusión T2V de código abierto enfrentan dificultades para generar videos más largos con contenido dinámico y en evolución. Estos modelos tienden a sintetizar videos cuasi estáticos, ignorando los cambios visuales necesarios a lo largo del tiempo que se sugieren en el texto de entrada. Al mismo tiempo, escalar estos modelos para permitir la síntesis de videos más largos y dinámicos suele ser computacionalmente inviable. Para abordar este desafío, introducimos el concepto de Cuidado Temporal Generativo (GTN, por sus siglas en inglés), donde buscamos modificar el proceso generativo sobre la marcha durante la inferencia para mejorar el control sobre la dinámica temporal y permitir la generación de videos más extensos. Proponemos un método para GTN, denominado VSTAR, que consta de dos componentes clave: 1) Sugerencia de Sinopsis de Video (VSP, por sus siglas en inglés): la generación automática de una sinopsis de video basada en el texto de entrada original utilizando modelos de lenguaje grandes (LLMs), lo que proporciona una guía textual precisa para los diferentes estados visuales de videos más largos, y 2) Regularización de Atención Temporal (TAR, por sus siglas en inglés): una técnica de regularización para refinar las unidades de atención temporal de los modelos de difusión T2V preentrenados, lo que permite controlar la dinámica del video. Experimentalmente, demostramos la superioridad del enfoque propuesto en la generación de videos más largos y visualmente atractivos en comparación con los modelos T2V de código abierto existentes. Además, analizamos los mapas de atención temporal obtenidos con y sin VSTAR, destacando la importancia de aplicar nuestro método para mitigar la omisión de los cambios visuales deseados a lo largo del tiempo.
English
Despite tremendous progress in the field of text-to-video (T2V) synthesis,
open-sourced T2V diffusion models struggle to generate longer videos with
dynamically varying and evolving content. They tend to synthesize quasi-static
videos, ignoring the necessary visual change-over-time implied in the text
prompt. At the same time, scaling these models to enable longer, more dynamic
video synthesis often remains computationally intractable. To address this
challenge, we introduce the concept of Generative Temporal Nursing (GTN), where
we aim to alter the generative process on the fly during inference to improve
control over the temporal dynamics and enable generation of longer videos. We
propose a method for GTN, dubbed VSTAR, which consists of two key ingredients:
1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis
based on the original single prompt leveraging LLMs, which gives accurate
textual guidance to different visual states of longer videos, and 2) Temporal
Attention Regularization (TAR) - a regularization technique to refine the
temporal attention units of the pre-trained T2V diffusion models, which enables
control over the video dynamics. We experimentally showcase the superiority of
the proposed approach in generating longer, visually appealing videos over
existing open-sourced T2V models. We additionally analyze the temporal
attention maps realized with and without VSTAR, demonstrating the importance of
applying our method to mitigate neglect of the desired visual change over time.Summary
AI-Generated Summary