Redefiniendo el Modelado Temporal en la Difusión de Video: El Enfoque de Paso de Tiempo Vectorizado

Resumen

Los modelos de difusión han revolucionado la generación de imágenes, y su extensión a la generación de videos ha mostrado promesa. Sin embargo, los modelos de difusión de video actuales (VDM) se basan en una variable de paso escalar aplicada a nivel de clip, lo que limita su capacidad para modelar dependencias temporales complejas necesarias para diversas tareas como la generación de imágenes a video. Para abordar esta limitación, proponemos un modelo de difusión de video consciente de los fotogramas (FVDM), que introduce una nueva variable de paso vectorizada (VTV). A diferencia de los VDM convencionales, nuestro enfoque permite que cada fotograma siga un programa de ruido independiente, mejorando la capacidad del modelo para capturar dependencias temporales detalladas. La flexibilidad de FVDM se demuestra en múltiples tareas, incluyendo la generación de videos estándar, generación de imágenes a video, interpolación de video y síntesis de videos largos. A través de un conjunto diverso de configuraciones de VTV, logramos una calidad superior en los videos generados, superando desafíos como el olvido catastrófico durante el ajuste fino y la limitada generalización en métodos de cero disparo. Nuestras evaluaciones empíricas muestran que FVDM supera a los métodos de vanguardia en calidad de generación de videos, destacándose también en tareas extendidas. Al abordar deficiencias fundamentales en los VDM existentes, FVDM establece un nuevo paradigma en la síntesis de videos, ofreciendo un marco robusto con implicaciones significativas para la modelización generativa y las aplicaciones multimedia.

English

Diffusion models have revolutionized image generation, and their extension to video generation has shown promise. However, current video diffusion models~(VDMs) rely on a scalar timestep variable applied at the clip level, which limits their ability to model complex temporal dependencies needed for various tasks like image-to-video generation. To address this limitation, we propose a frame-aware video diffusion model~(FVDM), which introduces a novel vectorized timestep variable~(VTV). Unlike conventional VDMs, our approach allows each frame to follow an independent noise schedule, enhancing the model's capacity to capture fine-grained temporal dependencies. FVDM's flexibility is demonstrated across multiple tasks, including standard video generation, image-to-video generation, video interpolation, and long video synthesis. Through a diverse set of VTV configurations, we achieve superior quality in generated videos, overcoming challenges such as catastrophic forgetting during fine-tuning and limited generalizability in zero-shot methods.Our empirical evaluations show that FVDM outperforms state-of-the-art methods in video generation quality, while also excelling in extended tasks. By addressing fundamental shortcomings in existing VDMs, FVDM sets a new paradigm in video synthesis, offering a robust framework with significant implications for generative modeling and multimedia applications.

Redefiniendo el Modelado Temporal en la Difusión de Video: El Enfoque de Paso de Tiempo Vectorizado

Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach

Resumen

Support