Difusión de video consistente con el mundo con modelado 3D explícito
World-consistent Video Diffusion with Explicit 3D Modeling
December 2, 2024
Autores: Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
cs.AI
Resumen
Los recientes avances en modelos de difusión han establecido nuevos estándares en la generación de imágenes y vídeos, permitiendo una síntesis visual realista a lo largo de contextos de cuadros únicos y múltiples. Sin embargo, estos modelos aún tienen dificultades para generar contenido 3D de manera eficiente y explícita. Para abordar esto, proponemos Difusión de Vídeo Consistente con el Mundo (WVD, por sus siglas en inglés), un marco novedoso que incorpora una supervisión 3D explícita utilizando imágenes XYZ, las cuales codifican coordenadas 3D globales para cada píxel de la imagen. Más específicamente, entrenamos un transformador de difusión para aprender la distribución conjunta de cuadros RGB y XYZ. Este enfoque soporta adaptabilidad multi-tarea a través de una estrategia de rellenado flexible. Por ejemplo, WVD puede estimar cuadros XYZ a partir de cuadros RGB de verdad o generar nuevos cuadros RGB utilizando proyecciones XYZ a lo largo de una trayectoria de cámara especificada. Al hacerlo, WVD unifica tareas como generación de imagen única a 3D, estéreo de múltiples vistas y generación de vídeo controlado por cámara. Nuestro enfoque demuestra un rendimiento competitivo en múltiples estándares, proporcionando una solución escalable para la generación de vídeo e imagen consistente en 3D con un único modelo preentrenado.
English
Recent advancements in diffusion models have set new benchmarks in image and
video generation, enabling realistic visual synthesis across single- and
multi-frame contexts. However, these models still struggle with efficiently and
explicitly generating 3D-consistent content. To address this, we propose
World-consistent Video Diffusion (WVD), a novel framework that incorporates
explicit 3D supervision using XYZ images, which encode global 3D coordinates
for each image pixel. More specifically, we train a diffusion transformer to
learn the joint distribution of RGB and XYZ frames. This approach supports
multi-task adaptability via a flexible inpainting strategy. For example, WVD
can estimate XYZ frames from ground-truth RGB or generate novel RGB frames
using XYZ projections along a specified camera trajectory. In doing so, WVD
unifies tasks like single-image-to-3D generation, multi-view stereo, and
camera-controlled video generation. Our approach demonstrates competitive
performance across multiple benchmarks, providing a scalable solution for
3D-consistent video and image generation with a single pretrained model.Summary
AI-Generated Summary