ChatPaper.aiChatPaper

Zero4D: Generación de videos 4D sin entrenamiento a partir de un solo video utilizando un modelo de difusión de video estándar.

Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model

March 28, 2025
Autores: Jangho Park, Taesung Kwon, Jong Chul Ye
cs.AI

Resumen

Recientemente, la generación de vídeo multivista o 4D ha surgido como un tema de investigación importante. Sin embargo, los enfoques recientes para la generación 4D aún enfrentan limitaciones fundamentales, ya que dependen principalmente de aprovechar múltiples modelos de difusión de vídeo con entrenamiento adicional o del entrenamiento computacionalmente intensivo de un modelo completo de difusión 4D, con datos 4D del mundo real limitados y grandes costos computacionales. Para abordar estos desafíos, aquí proponemos el primer método de generación de vídeo 4D sin entrenamiento que aprovecha modelos de difusión de vídeo disponibles para generar vídeos multivista a partir de un único vídeo de entrada. Nuestro enfoque consta de dos pasos clave: (1) Al designar los fotogramas de borde en la cuadrícula de muestreo espacio-temporal como fotogramas clave, primero los sintetizamos utilizando un modelo de difusión de vídeo, aprovechando una técnica de deformación basada en profundidad para guiar el proceso. Este enfoque garantiza la consistencia estructural en los fotogramas generados, preservando la coherencia espacial y temporal. (2) Luego interpolamos los fotogramas restantes utilizando un modelo de difusión de vídeo, construyendo una cuadrícula de muestreo completamente poblada y temporalmente coherente mientras se preserva la consistencia espacial y temporal. A través de este enfoque, extendemos un único vídeo en un vídeo multivista a lo largo de trayectorias de cámara novedosas, manteniendo la coherencia espacio-temporal. Nuestro método no requiere entrenamiento y utiliza completamente un modelo de difusión de vídeo disponible, ofreciendo una solución práctica y efectiva para la generación de vídeo multivista.
English
Recently, multi-view or 4D video generation has emerged as a significant research topic. Nonetheless, recent approaches to 4D generation still struggle with fundamental limitations, as they primarily rely on harnessing multiple video diffusion models with additional training or compute-intensive training of a full 4D diffusion model with limited real-world 4D data and large computational costs. To address these challenges, here we propose the first training-free 4D video generation method that leverages the off-the-shelf video diffusion models to generate multi-view videos from a single input video. Our approach consists of two key steps: (1) By designating the edge frames in the spatio-temporal sampling grid as key frames, we first synthesize them using a video diffusion model, leveraging a depth-based warping technique for guidance. This approach ensures structural consistency across the generated frames, preserving spatial and temporal coherence. (2) We then interpolate the remaining frames using a video diffusion model, constructing a fully populated and temporally coherent sampling grid while preserving spatial and temporal consistency. Through this approach, we extend a single video into a multi-view video along novel camera trajectories while maintaining spatio-temporal consistency. Our method is training-free and fully utilizes an off-the-shelf video diffusion model, offering a practical and effective solution for multi-view video generation.

Summary

AI-Generated Summary

PDF182April 1, 2025