SV4D: Geração Dinâmica de Conteúdo 3D com Consistência de Múltiplos Quadros e Múltiplas Visualizações
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency
July 24, 2024
Autores: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI
Resumo
Apresentamos o Stable Video 4D (SV4D), um modelo de difusão de vídeo latente para geração consistente de conteúdo 3D dinâmico em vídeo com múltiplos quadros e múltiplas visualizações. Ao contrário de métodos anteriores que dependem de modelos generativos treinados separadamente para geração de vídeo e síntese de novas visualizações, projetamos um modelo de difusão unificado para gerar vídeos de novas visualizações de objetos 3D dinâmicos. Especificamente, dado um vídeo de referência monocular, o SV4D gera novas visualizações para cada quadro de vídeo que são temporalmente consistentes. Em seguida, usamos os vídeos de novas visualizações gerados para otimizar uma representação implícita 4D (NeRF dinâmico) de forma eficiente, sem a necessidade da otimização baseada em SDS usada na maioria dos trabalhos anteriores. Para treinar nosso modelo unificado de geração de vídeos de novas visualizações, curamos um conjunto de dados de objetos 3D dinâmicos do conjunto de dados Objaverse existente. Resultados experimentais extensivos em vários conjuntos de dados e estudos de usuários demonstram o desempenho de ponta do SV4D na síntese de vídeos de novas visualizações, bem como na geração 4D em comparação com trabalhos anteriores.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for
multi-frame and multi-view consistent dynamic 3D content generation. Unlike
previous methods that rely on separately trained generative models for video
generation and novel view synthesis, we design a unified diffusion model to
generate novel view videos of dynamic 3D objects. Specifically, given a
monocular reference video, SV4D generates novel views for each video frame that
are temporally consistent. We then use the generated novel view videos to
optimize an implicit 4D representation (dynamic NeRF) efficiently, without the
need for cumbersome SDS-based optimization used in most prior works. To train
our unified novel view video generation model, we curated a dynamic 3D object
dataset from the existing Objaverse dataset. Extensive experimental results on
multiple datasets and user studies demonstrate SV4D's state-of-the-art
performance on novel-view video synthesis as well as 4D generation compared to
prior works.Summary
AI-Generated Summary