Vid3D: Síntese de Cenas Dinâmicas 3D utilizando Difusão de Vídeo 2D
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion
June 17, 2024
Autores: Rishab Parthasarathy, Zack Ankner, Aaron Gokaslan
cs.AI
Resumo
Uma fronteira recente na visão computacional tem sido a tarefa de geração de vídeos 3D, que consiste em gerar uma representação 3D variável no tempo de uma cena. Para gerar cenas 3D dinâmicas, os métodos atuais modelam explicitamente a dinâmica temporal 3D otimizando conjuntamente a consistência ao longo do tempo e das visões da cena. Neste artigo, investigamos se é necessário impor explicitamente a consistência multivisão ao longo do tempo, como fazem as abordagens atuais, ou se é suficiente que um modelo gere representações 3D de cada instante de tempo de forma independente. Propomos, portanto, um modelo, Vid3D, que aproveita a difusão de vídeo 2D para gerar vídeos 3D, primeiro gerando uma "semente" 2D da dinâmica temporal do vídeo e, em seguida, gerando independentemente uma representação 3D para cada instante de tempo no vídeo semente. Avaliamos o Vid3D em comparação com dois métodos state-of-the-art de geração de vídeos 3D e constatamos que o Vid3D alcança resultados comparáveis, apesar de não modelar explicitamente a dinâmica temporal 3D. Além disso, investigamos como a qualidade do Vid3D depende do número de visões geradas por quadro. Embora observemos alguma degradação com menos visões, a queda de desempenho permanece mínima. Nossos resultados sugerem, portanto, que o conhecimento temporal 3D pode não ser necessário para gerar cenas 3D dinâmicas de alta qualidade, potencialmente permitindo algoritmos generativos mais simples para essa tarefa.
English
A recent frontier in computer vision has been the task of 3D video
generation, which consists of generating a time-varying 3D representation of a
scene. To generate dynamic 3D scenes, current methods explicitly model 3D
temporal dynamics by jointly optimizing for consistency across both time and
views of the scene. In this paper, we instead investigate whether it is
necessary to explicitly enforce multiview consistency over time, as current
approaches do, or if it is sufficient for a model to generate 3D
representations of each timestep independently. We hence propose a model,
Vid3D, that leverages 2D video diffusion to generate 3D videos by first
generating a 2D "seed" of the video's temporal dynamics and then independently
generating a 3D representation for each timestep in the seed video. We evaluate
Vid3D against two state-of-the-art 3D video generation methods and find that
Vid3D is achieves comparable results despite not explicitly modeling 3D
temporal dynamics. We further ablate how the quality of Vid3D depends on the
number of views generated per frame. While we observe some degradation with
fewer views, performance degradation remains minor. Our results thus suggest
that 3D temporal knowledge may not be necessary to generate high-quality
dynamic 3D scenes, potentially enabling simpler generative algorithms for this
task.