ChatPaper.aiChatPaper

SV4D: Generación dinámica de contenido 3D con consistencia multi-frame y multi-view

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

July 24, 2024
Autores: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI

Resumen

Presentamos Stable Video 4D (SV4D), un modelo de difusión de video latente para generación consistente de contenido 3D dinámico en video de múltiples cuadros y múltiples vistas. A diferencia de métodos anteriores que dependen de modelos generativos entrenados por separado para la generación de video y síntesis de vistas novedosas, diseñamos un modelo de difusión unificado para generar videos de vistas novedosas de objetos 3D dinámicos. Específicamente, dado un video de referencia monocular, SV4D genera vistas novedosas para cada cuadro de video que son temporalmente consistentes. Luego utilizamos los videos de vistas novedosas generados para optimizar una representación implícita 4D (NeRF dinámico) de manera eficiente, sin necesidad de la optimización basada en SDS utilizada en la mayoría de trabajos previos. Para entrenar nuestro modelo unificado de generación de videos de vistas novedosas, creamos un conjunto de datos de objetos 3D dinámicos a partir del conjunto de datos existente de Objaverse. Resultados experimentales extensos en múltiples conjuntos de datos y estudios de usuarios demuestran el rendimiento de vanguardia de SV4D en la síntesis de videos de vistas novedosas y generación 4D en comparación con trabajos previos.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D's state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.

Summary

AI-Generated Summary

PDF162November 28, 2024