Redefiniendo el Modelado Temporal en la Difusión de Video: El Enfoque de Paso de Tiempo Vectorizado
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
October 4, 2024
Autores: Yaofang Liu, Yumeng Ren, Xiaodong Cun, Aitor Artola, Yang Liu, Tieyong Zeng, Raymond H. Chan, Jean-michel Morel
cs.AI
Resumen
Los modelos de difusión han revolucionado la generación de imágenes, y su extensión a la generación de videos ha mostrado promesa. Sin embargo, los modelos de difusión de video actuales (VDM) se basan en una variable de paso escalar aplicada a nivel de clip, lo que limita su capacidad para modelar dependencias temporales complejas necesarias para diversas tareas como la generación de imágenes a video. Para abordar esta limitación, proponemos un modelo de difusión de video consciente de los fotogramas (FVDM), que introduce una nueva variable de paso vectorizada (VTV). A diferencia de los VDM convencionales, nuestro enfoque permite que cada fotograma siga un programa de ruido independiente, mejorando la capacidad del modelo para capturar dependencias temporales detalladas. La flexibilidad de FVDM se demuestra en múltiples tareas, incluyendo la generación de videos estándar, generación de imágenes a video, interpolación de video y síntesis de videos largos. A través de un conjunto diverso de configuraciones de VTV, logramos una calidad superior en los videos generados, superando desafíos como el olvido catastrófico durante el ajuste fino y la limitada generalización en métodos de cero disparo. Nuestras evaluaciones empíricas muestran que FVDM supera a los métodos de vanguardia en calidad de generación de videos, destacándose también en tareas extendidas. Al abordar deficiencias fundamentales en los VDM existentes, FVDM establece un nuevo paradigma en la síntesis de videos, ofreciendo un marco robusto con implicaciones significativas para la modelización generativa y las aplicaciones multimedia.
English
Diffusion models have revolutionized image generation, and their extension to
video generation has shown promise. However, current video diffusion
models~(VDMs) rely on a scalar timestep variable applied at the clip level,
which limits their ability to model complex temporal dependencies needed for
various tasks like image-to-video generation. To address this limitation, we
propose a frame-aware video diffusion model~(FVDM), which introduces a novel
vectorized timestep variable~(VTV). Unlike conventional VDMs, our approach
allows each frame to follow an independent noise schedule, enhancing the
model's capacity to capture fine-grained temporal dependencies. FVDM's
flexibility is demonstrated across multiple tasks, including standard video
generation, image-to-video generation, video interpolation, and long video
synthesis. Through a diverse set of VTV configurations, we achieve superior
quality in generated videos, overcoming challenges such as catastrophic
forgetting during fine-tuning and limited generalizability in zero-shot
methods.Our empirical evaluations show that FVDM outperforms state-of-the-art
methods in video generation quality, while also excelling in extended tasks. By
addressing fundamental shortcomings in existing VDMs, FVDM sets a new paradigm
in video synthesis, offering a robust framework with significant implications
for generative modeling and multimedia applications.Summary
AI-Generated Summary