Vid3D : Synthèse de scènes 3D dynamiques à l'aide de la diffusion vidéo 2D
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion
June 17, 2024
Auteurs: Rishab Parthasarathy, Zack Ankner, Aaron Gokaslan
cs.AI
Résumé
Une frontière récente en vision par ordinateur est la tâche de génération de vidéos 3D, qui consiste à produire une représentation 3D variant dans le temps d'une scène. Pour générer des scènes 3D dynamiques, les méthodes actuelles modélisent explicitement la dynamique temporelle 3D en optimisant conjointement la cohérence à travers le temps et les différentes vues de la scène. Dans cet article, nous explorons s'il est nécessaire d'imposer explicitement la cohérence multivue dans le temps, comme le font les approches actuelles, ou si un modèle peut se contenter de générer des représentations 3D pour chaque pas de temps de manière indépendante. Nous proposons donc un modèle, Vid3D, qui exploite la diffusion de vidéos 2D pour générer des vidéos 3D en produisant d'abord une "graine" 2D de la dynamique temporelle de la vidéo, puis en générant indépendamment une représentation 3D pour chaque pas de temps de cette vidéo graine. Nous évaluons Vid3D par rapport à deux méthodes de pointe en génération de vidéos 3D et constatons que Vid3D obtient des résultats comparables sans modéliser explicitement la dynamique temporelle 3D. Nous étudions également comment la qualité de Vid3D dépend du nombre de vues générées par image. Bien que nous observions une certaine dégradation avec moins de vues, cette dégradation reste mineure. Nos résultats suggèrent ainsi que la connaissance temporelle 3D pourrait ne pas être nécessaire pour générer des scènes 3D dynamiques de haute qualité, ouvrant la voie à des algorithmes génératifs plus simples pour cette tâche.
English
A recent frontier in computer vision has been the task of 3D video
generation, which consists of generating a time-varying 3D representation of a
scene. To generate dynamic 3D scenes, current methods explicitly model 3D
temporal dynamics by jointly optimizing for consistency across both time and
views of the scene. In this paper, we instead investigate whether it is
necessary to explicitly enforce multiview consistency over time, as current
approaches do, or if it is sufficient for a model to generate 3D
representations of each timestep independently. We hence propose a model,
Vid3D, that leverages 2D video diffusion to generate 3D videos by first
generating a 2D "seed" of the video's temporal dynamics and then independently
generating a 3D representation for each timestep in the seed video. We evaluate
Vid3D against two state-of-the-art 3D video generation methods and find that
Vid3D is achieves comparable results despite not explicitly modeling 3D
temporal dynamics. We further ablate how the quality of Vid3D depends on the
number of views generated per frame. While we observe some degradation with
fewer views, performance degradation remains minor. Our results thus suggest
that 3D temporal knowledge may not be necessary to generate high-quality
dynamic 3D scenes, potentially enabling simpler generative algorithms for this
task.Summary
AI-Generated Summary