SV4D: Generazione Dinamica di Contenuti 3D con Coerenza Multi-Frame e Multi-View
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency
July 24, 2024
Autori: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI
Abstract
Presentiamo Stable Video 4D (SV4D), un modello di diffusione latente per video dedicato alla generazione di contenuti 3D dinamici con coerenza multi-frame e multi-view. A differenza dei metodi precedenti che si basano su modelli generativi addestrati separatamente per la generazione di video e la sintesi di nuove visualizzazioni, progettiamo un modello di diffusione unificato per generare video con nuove visualizzazioni di oggetti 3D dinamici. Nello specifico, dato un video di riferimento monoculare, SV4D genera nuove visualizzazioni per ogni fotogramma del video che sono temporalmente coerenti. Utilizziamo quindi i video con nuove visualizzazioni generati per ottimizzare in modo efficiente una rappresentazione implicita 4D (NeRF dinamico), senza la necessità dell'ingombrante ottimizzazione basata su SDS utilizzata nella maggior parte dei lavori precedenti. Per addestrare il nostro modello unificato di generazione di video con nuove visualizzazioni, abbiamo curato un dataset di oggetti 3D dinamici a partire dal dataset esistente Objaverse. I risultati sperimentali estesi su più dataset e gli studi sugli utenti dimostrano che SV4D raggiunge prestazioni all'avanguardia nella sintesi di video con nuove visualizzazioni e nella generazione 4D rispetto ai lavori precedenti.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for
multi-frame and multi-view consistent dynamic 3D content generation. Unlike
previous methods that rely on separately trained generative models for video
generation and novel view synthesis, we design a unified diffusion model to
generate novel view videos of dynamic 3D objects. Specifically, given a
monocular reference video, SV4D generates novel views for each video frame that
are temporally consistent. We then use the generated novel view videos to
optimize an implicit 4D representation (dynamic NeRF) efficiently, without the
need for cumbersome SDS-based optimization used in most prior works. To train
our unified novel view video generation model, we curated a dynamic 3D object
dataset from the existing Objaverse dataset. Extensive experimental results on
multiple datasets and user studies demonstrate SV4D's state-of-the-art
performance on novel-view video synthesis as well as 4D generation compared to
prior works.