SV4D: Generación dinámica de contenido 3D con consistencia multi-frame y multi-view
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency
July 24, 2024
Autores: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI
Resumen
Presentamos Stable Video 4D (SV4D), un modelo de difusión de video latente para generación consistente de contenido 3D dinámico en video de múltiples cuadros y múltiples vistas. A diferencia de métodos anteriores que dependen de modelos generativos entrenados por separado para la generación de video y síntesis de vistas novedosas, diseñamos un modelo de difusión unificado para generar videos de vistas novedosas de objetos 3D dinámicos. Específicamente, dado un video de referencia monocular, SV4D genera vistas novedosas para cada cuadro de video que son temporalmente consistentes. Luego utilizamos los videos de vistas novedosas generados para optimizar una representación implícita 4D (NeRF dinámico) de manera eficiente, sin necesidad de la optimización basada en SDS utilizada en la mayoría de trabajos previos. Para entrenar nuestro modelo unificado de generación de videos de vistas novedosas, creamos un conjunto de datos de objetos 3D dinámicos a partir del conjunto de datos existente de Objaverse. Resultados experimentales extensos en múltiples conjuntos de datos y estudios de usuarios demuestran el rendimiento de vanguardia de SV4D en la síntesis de videos de vistas novedosas y generación 4D en comparación con trabajos previos.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for
multi-frame and multi-view consistent dynamic 3D content generation. Unlike
previous methods that rely on separately trained generative models for video
generation and novel view synthesis, we design a unified diffusion model to
generate novel view videos of dynamic 3D objects. Specifically, given a
monocular reference video, SV4D generates novel views for each video frame that
are temporally consistent. We then use the generated novel view videos to
optimize an implicit 4D representation (dynamic NeRF) efficiently, without the
need for cumbersome SDS-based optimization used in most prior works. To train
our unified novel view video generation model, we curated a dynamic 3D object
dataset from the existing Objaverse dataset. Extensive experimental results on
multiple datasets and user studies demonstrate SV4D's state-of-the-art
performance on novel-view video synthesis as well as 4D generation compared to
prior works.Summary
AI-Generated Summary