ChatPaper.aiChatPaper

SV4D: Dynamische 3D-Inhaltegenerierung mit Mehrfachbild- und Mehrfachansichtskonsistenz

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

July 24, 2024
Autoren: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI

Zusammenfassung

Wir präsentieren Stable Video 4D (SV4D), ein latentes Video-Diffusionsmodell für die konsistente Erzeugung von dynamischen 3D-Inhalten über mehrere Frames und Ansichten. Im Gegensatz zu früheren Methoden, die auf separat trainierten generativen Modellen für die Videogenerierung und die Synthese neuer Ansichten basieren, entwerfen wir ein vereinheitlichtes Diffusionsmodell, um neuartige Ansichtsvideos von dynamischen 3D-Objekten zu generieren. Konkret generiert SV4D, basierend auf einem monokularen Referenzvideo, neuartige Ansichten für jeden Videoframe, die zeitlich konsistent sind. Anschließend verwenden wir die generierten neuartigen Ansichtsvideos, um eine implizite 4D-Repräsentation (dynamisches NeRF) effizient zu optimieren, ohne auf die umständliche SDS-basierte Optimierung zurückgreifen zu müssen, die in den meisten früheren Arbeiten verwendet wird. Um unser vereinheitlichtes Modell zur Generierung von neuartigen Ansichtsvideos zu trainieren, haben wir einen Datensatz mit dynamischen 3D-Objekten aus dem bestehenden Objaverse-Datensatz zusammengestellt. Umfangreiche experimentelle Ergebnisse auf mehreren Datensätzen und Benutzerstudien zeigen die erstklassige Leistung von SV4D bei der Synthese von Neuansichtsvideos sowie der 4D-Generierung im Vergleich zu früheren Arbeiten.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D's state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.

Summary

AI-Generated Summary

PDF162November 28, 2024