ChatPaper.aiChatPaper

VSTAR: Cuidado Temporal Generativo para la Síntesis de Videos Dinámicos de Mayor Duración

VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

March 20, 2024
Autores: Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
cs.AI

Resumen

A pesar del progreso significativo en el campo de la síntesis de texto a video (T2V), los modelos de difusión T2V de código abierto enfrentan dificultades para generar videos más largos con contenido dinámico y en evolución. Estos modelos tienden a sintetizar videos cuasi estáticos, ignorando los cambios visuales necesarios a lo largo del tiempo que se sugieren en el texto de entrada. Al mismo tiempo, escalar estos modelos para permitir la síntesis de videos más largos y dinámicos suele ser computacionalmente inviable. Para abordar este desafío, introducimos el concepto de Cuidado Temporal Generativo (GTN, por sus siglas en inglés), donde buscamos modificar el proceso generativo sobre la marcha durante la inferencia para mejorar el control sobre la dinámica temporal y permitir la generación de videos más extensos. Proponemos un método para GTN, denominado VSTAR, que consta de dos componentes clave: 1) Sugerencia de Sinopsis de Video (VSP, por sus siglas en inglés): la generación automática de una sinopsis de video basada en el texto de entrada original utilizando modelos de lenguaje grandes (LLMs), lo que proporciona una guía textual precisa para los diferentes estados visuales de videos más largos, y 2) Regularización de Atención Temporal (TAR, por sus siglas en inglés): una técnica de regularización para refinar las unidades de atención temporal de los modelos de difusión T2V preentrenados, lo que permite controlar la dinámica del video. Experimentalmente, demostramos la superioridad del enfoque propuesto en la generación de videos más largos y visualmente atractivos en comparación con los modelos T2V de código abierto existentes. Además, analizamos los mapas de atención temporal obtenidos con y sin VSTAR, destacando la importancia de aplicar nuestro método para mitigar la omisión de los cambios visuales deseados a lo largo del tiempo.
English
Despite tremendous progress in the field of text-to-video (T2V) synthesis, open-sourced T2V diffusion models struggle to generate longer videos with dynamically varying and evolving content. They tend to synthesize quasi-static videos, ignoring the necessary visual change-over-time implied in the text prompt. At the same time, scaling these models to enable longer, more dynamic video synthesis often remains computationally intractable. To address this challenge, we introduce the concept of Generative Temporal Nursing (GTN), where we aim to alter the generative process on the fly during inference to improve control over the temporal dynamics and enable generation of longer videos. We propose a method for GTN, dubbed VSTAR, which consists of two key ingredients: 1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis based on the original single prompt leveraging LLMs, which gives accurate textual guidance to different visual states of longer videos, and 2) Temporal Attention Regularization (TAR) - a regularization technique to refine the temporal attention units of the pre-trained T2V diffusion models, which enables control over the video dynamics. We experimentally showcase the superiority of the proposed approach in generating longer, visually appealing videos over existing open-sourced T2V models. We additionally analyze the temporal attention maps realized with and without VSTAR, demonstrating the importance of applying our method to mitigate neglect of the desired visual change over time.

Summary

AI-Generated Summary

PDF93December 15, 2024