Zero4D: Training-vrije 4D-videogeneratie vanuit een enkele video met behulp van een standaard videodiffusiemodel
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model
March 28, 2025
Auteurs: Jangho Park, Taesung Kwon, Jong Chul Ye
cs.AI
Samenvatting
Onlangs is multi-view of 4D-videogeneratie naar voren gekomen als een belangrijk onderzoeksonderwerp. Toch worstelen recente benaderingen voor 4D-generatie nog steeds met fundamentele beperkingen, aangezien ze voornamelijk vertrouwen op het inzetten van meerdere video-diffusiemodellen met aanvullende training of rekenintensieve training van een volledig 4D-diffusiemodel, waarbij beperkte real-world 4D-data en hoge rekenkosten een rol spelen. Om deze uitdagingen aan te pakken, stellen wij hier de eerste trainingsvrije methode voor 4D-videogeneratie voor, die gebruikmaakt van kant-en-klare video-diffusiemodellen om multi-view video's te genereren vanuit een enkele invoervideo. Onze aanpak bestaat uit twee belangrijke stappen: (1) Door de randframes in het spatio-temporele bemonsteringsraster als sleutelframes aan te wijzen, synthetiseren we deze eerst met behulp van een video-diffusiemodel, waarbij een op diepte gebaseerde warping-techniek wordt gebruikt voor begeleiding. Deze aanpak zorgt voor structurele consistentie over de gegenereerde frames, waarbij ruimtelijke en temporele samenhang behouden blijft. (2) Vervolgens interpoleren we de resterende frames met behulp van een video-diffusiemodel, waardoor een volledig gevuld en temporeel coherent bemonsteringsraster wordt geconstrueerd, terwijl ruimtelijke en temporele consistentie behouden blijft. Met deze aanpak breiden we een enkele video uit naar een multi-view video langs nieuwe cameratrajecten, waarbij spatio-temporele consistentie behouden blijft. Onze methode is trainingsvrij en maakt volledig gebruik van een kant-en-klaar video-diffusiemodel, wat een praktische en effectieve oplossing biedt voor multi-view videogeneratie.
English
Recently, multi-view or 4D video generation has emerged as a significant
research topic. Nonetheless, recent approaches to 4D generation still struggle
with fundamental limitations, as they primarily rely on harnessing multiple
video diffusion models with additional training or compute-intensive training
of a full 4D diffusion model with limited real-world 4D data and large
computational costs. To address these challenges, here we propose the first
training-free 4D video generation method that leverages the off-the-shelf video
diffusion models to generate multi-view videos from a single input video. Our
approach consists of two key steps: (1) By designating the edge frames in the
spatio-temporal sampling grid as key frames, we first synthesize them using a
video diffusion model, leveraging a depth-based warping technique for guidance.
This approach ensures structural consistency across the generated frames,
preserving spatial and temporal coherence. (2) We then interpolate the
remaining frames using a video diffusion model, constructing a fully populated
and temporally coherent sampling grid while preserving spatial and temporal
consistency. Through this approach, we extend a single video into a multi-view
video along novel camera trajectories while maintaining spatio-temporal
consistency. Our method is training-free and fully utilizes an off-the-shelf
video diffusion model, offering a practical and effective solution for
multi-view video generation.Summary
AI-Generated Summary