Vid3D: Synthese dynamischer 3D-Szenen unter Verwendung von 2D-Video-Diffusion

papers.abstract

Eine kürzliche Neuerung in der Computer Vision ist die Aufgabe der 3D-Videoerzeugung, bei der es darum geht, eine sich im Laufe der Zeit verändernde 3D-Repräsentation einer Szene zu erzeugen. Um dynamische 3D-Szenen zu generieren, modellieren aktuelle Methoden explizit die 3D-zeitlichen Dynamiken, indem sie gemeinsam die Konsistenz über Zeit und Ansichten der Szene optimieren. In diesem Papier untersuchen wir stattdessen, ob es notwendig ist, wie es aktuelle Ansätze tun, multiansichtige Konsistenz über die Zeit explizit durchzusetzen oder ob es ausreicht, dass ein Modell 3D-Repräsentationen jedes Zeitschritts unabhängig voneinander erzeugt. Daher schlagen wir ein Modell namens Vid3D vor, das 2D-Video-Diffusion nutzt, um 3D-Videos zu generieren, indem es zunächst ein 2D-"Seed" der zeitlichen Dynamik des Videos erzeugt und dann unabhängig voneinander eine 3D-Repräsentation für jeden Zeitschritt im Seed-Video generiert. Wir evaluieren Vid3D im Vergleich zu zwei führenden Methoden zur 3D-Videoerzeugung und stellen fest, dass Vid3D vergleichbare Ergebnisse erzielt, obwohl es die 3D-zeitlichen Dynamiken nicht explizit modelliert. Wir untersuchen auch, wie die Qualität von Vid3D von der Anzahl der pro Frame generierten Ansichten abhängt. Während wir bei weniger Ansichten eine gewisse Verschlechterung beobachten, bleibt die Leistungseinbuße geringfügig. Unsere Ergebnisse legen daher nahe, dass 3D-zeitliches Wissen möglicherweise nicht erforderlich ist, um hochwertige dynamische 3D-Szenen zu erzeugen, was möglicherweise einfachere generative Algorithmen für diese Aufgabe ermöglicht.

English

A recent frontier in computer vision has been the task of 3D video generation, which consists of generating a time-varying 3D representation of a scene. To generate dynamic 3D scenes, current methods explicitly model 3D temporal dynamics by jointly optimizing for consistency across both time and views of the scene. In this paper, we instead investigate whether it is necessary to explicitly enforce multiview consistency over time, as current approaches do, or if it is sufficient for a model to generate 3D representations of each timestep independently. We hence propose a model, Vid3D, that leverages 2D video diffusion to generate 3D videos by first generating a 2D "seed" of the video's temporal dynamics and then independently generating a 3D representation for each timestep in the seed video. We evaluate Vid3D against two state-of-the-art 3D video generation methods and find that Vid3D is achieves comparable results despite not explicitly modeling 3D temporal dynamics. We further ablate how the quality of Vid3D depends on the number of views generated per frame. While we observe some degradation with fewer views, performance degradation remains minor. Our results thus suggest that 3D temporal knowledge may not be necessary to generate high-quality dynamic 3D scenes, potentially enabling simpler generative algorithms for this task.

Vid3D: Synthese dynamischer 3D-Szenen unter Verwendung von 2D-Video-Diffusion

Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion

papers.abstract

Support