ChatPaper.aiChatPaper

Diffusion vidéo cohérente avec le monde en utilisant une modélisation 3D explicite

World-consistent Video Diffusion with Explicit 3D Modeling

December 2, 2024
Auteurs: Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
cs.AI

Résumé

Les récents progrès dans les modèles de diffusion ont établi de nouveaux standards en matière de génération d'images et de vidéos, permettant une synthèse visuelle réaliste à travers des contextes à un seul ou plusieurs images. Cependant, ces modèles peinent encore à générer efficacement et explicitement du contenu 3D cohérent. Pour remédier à cela, nous proposons la Diffusion Vidéo Cohérente avec le Monde (WVD), un nouveau cadre qui intègre une supervision 3D explicite en utilisant des images XYZ, qui codent les coordonnées 3D globales pour chaque pixel d'image. Plus précisément, nous entraînons un transformateur de diffusion à apprendre la distribution conjointe des trames RGB et XYZ. Cette approche soutient l'adaptabilité multi-tâches via une stratégie d'inpainting flexible. Par exemple, le WVD peut estimer les trames XYZ à partir des trames RGB réelles ou générer de nouvelles trames RGB en utilisant des projections XYZ le long d'une trajectoire de caméra spécifiée. Ce faisant, le WVD unifie des tâches telles que la génération d'images vers la 3D, la stéréo multi-vue et la génération de vidéos contrôlées par caméra. Notre approche démontre des performances compétitives à travers plusieurs référentiels, offrant une solution évolutive pour la génération d'images et de vidéos cohérentes en 3D avec un seul modèle pré-entraîné.
English
Recent advancements in diffusion models have set new benchmarks in image and video generation, enabling realistic visual synthesis across single- and multi-frame contexts. However, these models still struggle with efficiently and explicitly generating 3D-consistent content. To address this, we propose World-consistent Video Diffusion (WVD), a novel framework that incorporates explicit 3D supervision using XYZ images, which encode global 3D coordinates for each image pixel. More specifically, we train a diffusion transformer to learn the joint distribution of RGB and XYZ frames. This approach supports multi-task adaptability via a flexible inpainting strategy. For example, WVD can estimate XYZ frames from ground-truth RGB or generate novel RGB frames using XYZ projections along a specified camera trajectory. In doing so, WVD unifies tasks like single-image-to-3D generation, multi-view stereo, and camera-controlled video generation. Our approach demonstrates competitive performance across multiple benchmarks, providing a scalable solution for 3D-consistent video and image generation with a single pretrained model.

Summary

AI-Generated Summary

PDF42December 3, 2024