ChatPaper.aiChatPaper

SV4D: Generazione Dinamica di Contenuti 3D con Coerenza Multi-Frame e Multi-View

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

July 24, 2024
Autori: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI

Abstract

Presentiamo Stable Video 4D (SV4D), un modello di diffusione latente per video dedicato alla generazione di contenuti 3D dinamici con coerenza multi-frame e multi-view. A differenza dei metodi precedenti che si basano su modelli generativi addestrati separatamente per la generazione di video e la sintesi di nuove visualizzazioni, progettiamo un modello di diffusione unificato per generare video con nuove visualizzazioni di oggetti 3D dinamici. Nello specifico, dato un video di riferimento monoculare, SV4D genera nuove visualizzazioni per ogni fotogramma del video che sono temporalmente coerenti. Utilizziamo quindi i video con nuove visualizzazioni generati per ottimizzare in modo efficiente una rappresentazione implicita 4D (NeRF dinamico), senza la necessità dell'ingombrante ottimizzazione basata su SDS utilizzata nella maggior parte dei lavori precedenti. Per addestrare il nostro modello unificato di generazione di video con nuove visualizzazioni, abbiamo curato un dataset di oggetti 3D dinamici a partire dal dataset esistente Objaverse. I risultati sperimentali estesi su più dataset e gli studi sugli utenti dimostrano che SV4D raggiunge prestazioni all'avanguardia nella sintesi di video con nuove visualizzazioni e nella generazione 4D rispetto ai lavori precedenti.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D's state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.
PDF162November 28, 2024