Wereld-consistente videodiffusie met expliciete 3D-modellering
World-consistent Video Diffusion with Explicit 3D Modeling
December 2, 2024
Auteurs: Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
cs.AI
Samenvatting
Recente ontwikkelingen in diffusiemodellen hebben nieuwe maatstaven gezet op het gebied van beeld- en videogeneratie, waardoor realistische visuele synthese mogelijk is geworden in zowel enkelvoudige als meervoudige contexten. Echter, deze modellen hebben nog steeds moeite met het efficiënt en expliciet genereren van 3D-consistente inhoud. Om dit aan te pakken, stellen wij World-consistent Video Diffusion (WVD) voor, een nieuw raamwerk dat expliciete 3D-begeleiding integreert door middel van XYZ-beelden, die globale 3D-coördinaten coderen voor elk beeldpixel. Meer specifiek trainen we een diffusietransformator om de gezamenlijke verdeling van RGB- en XYZ-frames te leren. Deze aanpak ondersteunt multi-taak aanpasbaarheid via een flexibele inpaintingstrategie. Bijvoorbeeld kan WVD XYZ-frames schatten vanuit grondwaarheid RGB of nieuwe RGB-frames genereren met behulp van XYZ-projecties langs een gespecificeerde cameratraject. Op deze manier verenigt WVD taken zoals enkelvoudige-beeld-naar-3D-generatie, multi-view stereo en camera-gecontroleerde videogeneratie. Onze aanpak toont een competitieve prestatie op meerdere maatstaven, en biedt een schaalbare oplossing voor 3D-consistente video- en beeldgeneratie met een enkel voorgeleerd model.
English
Recent advancements in diffusion models have set new benchmarks in image and
video generation, enabling realistic visual synthesis across single- and
multi-frame contexts. However, these models still struggle with efficiently and
explicitly generating 3D-consistent content. To address this, we propose
World-consistent Video Diffusion (WVD), a novel framework that incorporates
explicit 3D supervision using XYZ images, which encode global 3D coordinates
for each image pixel. More specifically, we train a diffusion transformer to
learn the joint distribution of RGB and XYZ frames. This approach supports
multi-task adaptability via a flexible inpainting strategy. For example, WVD
can estimate XYZ frames from ground-truth RGB or generate novel RGB frames
using XYZ projections along a specified camera trajectory. In doing so, WVD
unifies tasks like single-image-to-3D generation, multi-view stereo, and
camera-controlled video generation. Our approach demonstrates competitive
performance across multiple benchmarks, providing a scalable solution for
3D-consistent video and image generation with a single pretrained model.