ChatPaper.aiChatPaper

Vid3D: Síntesis de escenas 3D dinámicas utilizando difusión de video 2D

Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion

June 17, 2024
Autores: Rishab Parthasarathy, Zack Ankner, Aaron Gokaslan
cs.AI

Resumen

Una frontera reciente en visión por computadora ha sido la tarea de generación de videos 3D, que consiste en generar una representación 3D de una escena que varía en el tiempo. Para generar escenas 3D dinámicas, los métodos actuales modelan explícitamente la dinámica temporal 3D optimizando conjuntamente la consistencia tanto en el tiempo como en las vistas de la escena. En este artículo, investigamos si es necesario imponer explícitamente la consistencia multivista a lo largo del tiempo, como lo hacen los enfoques actuales, o si es suficiente que un modelo genere representaciones 3D de cada paso de tiempo de manera independiente. Por ello, proponemos un modelo, Vid3D, que aprovecha la difusión de videos 2D para generar videos 3D, primero generando una "semilla" 2D de la dinámica temporal del video y luego generando de forma independiente una representación 3D para cada paso de tiempo en el video semilla. Evaluamos Vid3D frente a dos métodos de última generación en generación de videos 3D y encontramos que Vid3D logra resultados comparables a pesar de no modelar explícitamente la dinámica temporal 3D. Además, analizamos cómo la calidad de Vid3D depende del número de vistas generadas por fotograma. Si bien observamos cierta degradación con menos vistas, la disminución en el rendimiento sigue siendo menor. Nuestros resultados sugieren, por tanto, que el conocimiento temporal 3D podría no ser necesario para generar escenas 3D dinámicas de alta calidad, lo que potencialmente permitiría algoritmos generativos más simples para esta tarea.
English
A recent frontier in computer vision has been the task of 3D video generation, which consists of generating a time-varying 3D representation of a scene. To generate dynamic 3D scenes, current methods explicitly model 3D temporal dynamics by jointly optimizing for consistency across both time and views of the scene. In this paper, we instead investigate whether it is necessary to explicitly enforce multiview consistency over time, as current approaches do, or if it is sufficient for a model to generate 3D representations of each timestep independently. We hence propose a model, Vid3D, that leverages 2D video diffusion to generate 3D videos by first generating a 2D "seed" of the video's temporal dynamics and then independently generating a 3D representation for each timestep in the seed video. We evaluate Vid3D against two state-of-the-art 3D video generation methods and find that Vid3D is achieves comparable results despite not explicitly modeling 3D temporal dynamics. We further ablate how the quality of Vid3D depends on the number of views generated per frame. While we observe some degradation with fewer views, performance degradation remains minor. Our results thus suggest that 3D temporal knowledge may not be necessary to generate high-quality dynamic 3D scenes, potentially enabling simpler generative algorithms for this task.

Summary

AI-Generated Summary

PDF81December 6, 2024