Diffusion vidéo cohérente avec le monde en utilisant une modélisation 3D explicite
World-consistent Video Diffusion with Explicit 3D Modeling
December 2, 2024
Auteurs: Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
cs.AI
Résumé
Les récents progrès dans les modèles de diffusion ont établi de nouveaux standards en matière de génération d'images et de vidéos, permettant une synthèse visuelle réaliste à travers des contextes à un seul ou plusieurs images. Cependant, ces modèles peinent encore à générer efficacement et explicitement du contenu 3D cohérent. Pour remédier à cela, nous proposons la Diffusion Vidéo Cohérente avec le Monde (WVD), un nouveau cadre qui intègre une supervision 3D explicite en utilisant des images XYZ, qui codent les coordonnées 3D globales pour chaque pixel d'image. Plus précisément, nous entraînons un transformateur de diffusion à apprendre la distribution conjointe des trames RGB et XYZ. Cette approche soutient l'adaptabilité multi-tâches via une stratégie d'inpainting flexible. Par exemple, le WVD peut estimer les trames XYZ à partir des trames RGB réelles ou générer de nouvelles trames RGB en utilisant des projections XYZ le long d'une trajectoire de caméra spécifiée. Ce faisant, le WVD unifie des tâches telles que la génération d'images vers la 3D, la stéréo multi-vue et la génération de vidéos contrôlées par caméra. Notre approche démontre des performances compétitives à travers plusieurs référentiels, offrant une solution évolutive pour la génération d'images et de vidéos cohérentes en 3D avec un seul modèle pré-entraîné.
English
Recent advancements in diffusion models have set new benchmarks in image and
video generation, enabling realistic visual synthesis across single- and
multi-frame contexts. However, these models still struggle with efficiently and
explicitly generating 3D-consistent content. To address this, we propose
World-consistent Video Diffusion (WVD), a novel framework that incorporates
explicit 3D supervision using XYZ images, which encode global 3D coordinates
for each image pixel. More specifically, we train a diffusion transformer to
learn the joint distribution of RGB and XYZ frames. This approach supports
multi-task adaptability via a flexible inpainting strategy. For example, WVD
can estimate XYZ frames from ground-truth RGB or generate novel RGB frames
using XYZ projections along a specified camera trajectory. In doing so, WVD
unifies tasks like single-image-to-3D generation, multi-view stereo, and
camera-controlled video generation. Our approach demonstrates competitive
performance across multiple benchmarks, providing a scalable solution for
3D-consistent video and image generation with a single pretrained model.Summary
AI-Generated Summary