SV4D: Geração Dinâmica de Conteúdo 3D com Consistência de Múltiplos Quadros e Múltiplas Visualizações

Resumo

Apresentamos o Stable Video 4D (SV4D), um modelo de difusão de vídeo latente para geração consistente de conteúdo 3D dinâmico em vídeo com múltiplos quadros e múltiplas visualizações. Ao contrário de métodos anteriores que dependem de modelos generativos treinados separadamente para geração de vídeo e síntese de novas visualizações, projetamos um modelo de difusão unificado para gerar vídeos de novas visualizações de objetos 3D dinâmicos. Especificamente, dado um vídeo de referência monocular, o SV4D gera novas visualizações para cada quadro de vídeo que são temporalmente consistentes. Em seguida, usamos os vídeos de novas visualizações gerados para otimizar uma representação implícita 4D (NeRF dinâmico) de forma eficiente, sem a necessidade da otimização baseada em SDS usada na maioria dos trabalhos anteriores. Para treinar nosso modelo unificado de geração de vídeos de novas visualizações, curamos um conjunto de dados de objetos 3D dinâmicos do conjunto de dados Objaverse existente. Resultados experimentais extensivos em vários conjuntos de dados e estudos de usuários demonstram o desempenho de ponta do SV4D na síntese de vídeos de novas visualizações, bem como na geração 4D em comparação com trabalhos anteriores.

English

We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D's state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.

SV4D: Geração Dinâmica de Conteúdo 3D com Consistência de Múltiplos Quadros e Múltiplas Visualizações

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

Resumo

Summary

Support

Support