Vid3D: Synthese dynamischer 3D-Szenen unter Verwendung von 2D-Video-Diffusion
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion
June 17, 2024
Autoren: Rishab Parthasarathy, Zack Ankner, Aaron Gokaslan
cs.AI
Zusammenfassung
Eine kürzliche Neuerung in der Computer Vision ist die Aufgabe der 3D-Videoerzeugung, bei der es darum geht, eine sich im Laufe der Zeit verändernde 3D-Repräsentation einer Szene zu erzeugen. Um dynamische 3D-Szenen zu generieren, modellieren aktuelle Methoden explizit die 3D-zeitlichen Dynamiken, indem sie gemeinsam die Konsistenz über Zeit und Ansichten der Szene optimieren. In diesem Papier untersuchen wir stattdessen, ob es notwendig ist, wie es aktuelle Ansätze tun, multiansichtige Konsistenz über die Zeit explizit durchzusetzen oder ob es ausreicht, dass ein Modell 3D-Repräsentationen jedes Zeitschritts unabhängig voneinander erzeugt. Daher schlagen wir ein Modell namens Vid3D vor, das 2D-Video-Diffusion nutzt, um 3D-Videos zu generieren, indem es zunächst ein 2D-"Seed" der zeitlichen Dynamik des Videos erzeugt und dann unabhängig voneinander eine 3D-Repräsentation für jeden Zeitschritt im Seed-Video generiert. Wir evaluieren Vid3D im Vergleich zu zwei führenden Methoden zur 3D-Videoerzeugung und stellen fest, dass Vid3D vergleichbare Ergebnisse erzielt, obwohl es die 3D-zeitlichen Dynamiken nicht explizit modelliert. Wir untersuchen auch, wie die Qualität von Vid3D von der Anzahl der pro Frame generierten Ansichten abhängt. Während wir bei weniger Ansichten eine gewisse Verschlechterung beobachten, bleibt die Leistungseinbuße geringfügig. Unsere Ergebnisse legen daher nahe, dass 3D-zeitliches Wissen möglicherweise nicht erforderlich ist, um hochwertige dynamische 3D-Szenen zu erzeugen, was möglicherweise einfachere generative Algorithmen für diese Aufgabe ermöglicht.
English
A recent frontier in computer vision has been the task of 3D video
generation, which consists of generating a time-varying 3D representation of a
scene. To generate dynamic 3D scenes, current methods explicitly model 3D
temporal dynamics by jointly optimizing for consistency across both time and
views of the scene. In this paper, we instead investigate whether it is
necessary to explicitly enforce multiview consistency over time, as current
approaches do, or if it is sufficient for a model to generate 3D
representations of each timestep independently. We hence propose a model,
Vid3D, that leverages 2D video diffusion to generate 3D videos by first
generating a 2D "seed" of the video's temporal dynamics and then independently
generating a 3D representation for each timestep in the seed video. We evaluate
Vid3D against two state-of-the-art 3D video generation methods and find that
Vid3D is achieves comparable results despite not explicitly modeling 3D
temporal dynamics. We further ablate how the quality of Vid3D depends on the
number of views generated per frame. While we observe some degradation with
fewer views, performance degradation remains minor. Our results thus suggest
that 3D temporal knowledge may not be necessary to generate high-quality
dynamic 3D scenes, potentially enabling simpler generative algorithms for this
task.Summary
AI-Generated Summary