Zero4D: Trainingsfreie 4D-Videogenerierung aus einem einzelnen Video mithilfe eines verfügbaren Video-Diffusionsmodells
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model
March 28, 2025
Autoren: Jangho Park, Taesung Kwon, Jong Chul Ye
cs.AI
Zusammenfassung
Kürzlich hat die Multi-View- oder 4D-Videogenerierung als bedeutendes Forschungsthema an Bedeutung gewonnen. Dennoch kämpfen aktuelle Ansätze zur 4D-Generierung weiterhin mit grundlegenden Einschränkungen, da sie hauptsächlich auf die Nutzung mehrerer Video-Diffusionsmodelle mit zusätzlichem Training oder auf rechenintensives Training eines vollständigen 4D-Diffusionsmodells mit begrenzten realen 4D-Daten und hohen Rechenkosten angewiesen sind. Um diese Herausforderungen zu bewältigen, schlagen wir hier die erste trainingsfreie Methode zur 4D-Videogenerierung vor, die auf verfügbare Video-Diffusionsmodelle zurückgreift, um Multi-View-Videos aus einem einzelnen Eingabevideo zu generieren. Unser Ansatz besteht aus zwei zentralen Schritten: (1) Indem wir die Randbilder im raum-zeitlichen Abtastgitter als Schlüsselbilder festlegen, synthetisieren wir diese zunächst mithilfe eines Video-Diffusionsmodells unter Verwendung einer tiefenbasierten Warping-Technik zur Führung. Dieser Ansatz gewährleistet strukturelle Konsistenz über die generierten Bilder hinweg und bewahrt räumliche und zeitliche Kohärenz. (2) Anschließend interpolieren wir die verbleibenden Bilder mithilfe eines Video-Diffusionsmodells, wodurch ein vollständig gefülltes und zeitlich kohärentes Abtastgitter konstruiert wird, während räumliche und zeitliche Konsistenz erhalten bleibt. Durch diesen Ansatz erweitern wir ein einzelnes Video entlang neuartiger Kameratrajektorien zu einem Multi-View-Video, wobei die raum-zeitliche Konsistenz gewahrt bleibt. Unsere Methode ist trainingsfrei und nutzt ein verfügbares Video-Diffusionsmodell vollständig aus, wodurch sie eine praktische und effektive Lösung für die Multi-View-Videogenerierung bietet.
English
Recently, multi-view or 4D video generation has emerged as a significant
research topic. Nonetheless, recent approaches to 4D generation still struggle
with fundamental limitations, as they primarily rely on harnessing multiple
video diffusion models with additional training or compute-intensive training
of a full 4D diffusion model with limited real-world 4D data and large
computational costs. To address these challenges, here we propose the first
training-free 4D video generation method that leverages the off-the-shelf video
diffusion models to generate multi-view videos from a single input video. Our
approach consists of two key steps: (1) By designating the edge frames in the
spatio-temporal sampling grid as key frames, we first synthesize them using a
video diffusion model, leveraging a depth-based warping technique for guidance.
This approach ensures structural consistency across the generated frames,
preserving spatial and temporal coherence. (2) We then interpolate the
remaining frames using a video diffusion model, constructing a fully populated
and temporally coherent sampling grid while preserving spatial and temporal
consistency. Through this approach, we extend a single video into a multi-view
video along novel camera trajectories while maintaining spatio-temporal
consistency. Our method is training-free and fully utilizes an off-the-shelf
video diffusion model, offering a practical and effective solution for
multi-view video generation.Summary
AI-Generated Summary