ChatPaper.aiChatPaper

Weltkonsistente Videoverbreitung mit expliziter 3D-Modellierung

World-consistent Video Diffusion with Explicit 3D Modeling

December 2, 2024
Autoren: Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
cs.AI

Zusammenfassung

Die jüngsten Fortschritte in Diffusionsmodellen haben neue Maßstäbe in der Bild- und Videogenerierung gesetzt und ermöglichen eine realistische visuelle Synthese über Einzelbild- und Mehrbildkontexte hinweg. Allerdings haben diese Modelle immer noch Schwierigkeiten, 3D-konsistente Inhalte effizient und explizit zu generieren. Um dies zu lösen, schlagen wir World-consistent Video Diffusion (WVD) vor, ein neuartiges Framework, das eine explizite 3D-Überwachung unter Verwendung von XYZ-Bildern integriert, die globale 3D-Koordinaten für jeden Bildpixel codieren. Genauer gesagt trainieren wir einen Diffusionstransformator, um die gemeinsame Verteilung von RGB- und XYZ-Frames zu erlernen. Dieser Ansatz unterstützt eine multitaskfähige Anpassung über eine flexible Inpainting-Strategie. Zum Beispiel kann WVD XYZ-Frames aus Ground-Truth-RGB schätzen oder neuartige RGB-Frames mithilfe von XYZ-Projektionen entlang einer spezifizierten Kameratrajektorie generieren. Auf diese Weise vereint WVD Aufgaben wie Einzelbild-zu-3D-Generierung, Multi-View-Stereo und kameraüberwachte Videogenerierung. Unser Ansatz zeigt eine wettbewerbsfähige Leistung über mehrere Benchmarks hinweg und bietet eine skalierbare Lösung für die 3D-konsistente Video- und Bildgenerierung mit einem einzigen vorab trainierten Modell.
English
Recent advancements in diffusion models have set new benchmarks in image and video generation, enabling realistic visual synthesis across single- and multi-frame contexts. However, these models still struggle with efficiently and explicitly generating 3D-consistent content. To address this, we propose World-consistent Video Diffusion (WVD), a novel framework that incorporates explicit 3D supervision using XYZ images, which encode global 3D coordinates for each image pixel. More specifically, we train a diffusion transformer to learn the joint distribution of RGB and XYZ frames. This approach supports multi-task adaptability via a flexible inpainting strategy. For example, WVD can estimate XYZ frames from ground-truth RGB or generate novel RGB frames using XYZ projections along a specified camera trajectory. In doing so, WVD unifies tasks like single-image-to-3D generation, multi-view stereo, and camera-controlled video generation. Our approach demonstrates competitive performance across multiple benchmarks, providing a scalable solution for 3D-consistent video and image generation with a single pretrained model.

Summary

AI-Generated Summary

PDF42December 3, 2024