ChatPaper.aiChatPaper

Difusão de Vídeo Mundialmente Consistente com Modelagem 3D Explícita

World-consistent Video Diffusion with Explicit 3D Modeling

December 2, 2024
Autores: Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
cs.AI

Resumo

Os avanços recentes em modelos de difusão estabeleceram novos padrões na geração de imagens e vídeos, possibilitando a síntese visual realista em contextos de quadros únicos e múltiplos. No entanto, esses modelos ainda enfrentam dificuldades em gerar conteúdo 3D de forma eficiente e explícita. Para lidar com isso, propomos a Difusão de Vídeo Consistente com o Mundo (WVD), um novo framework que incorpora supervisão 3D explícita usando imagens XYZ, que codificam coordenadas 3D globais para cada pixel da imagem. Mais especificamente, treinamos um transformador de difusão para aprender a distribuição conjunta de quadros RGB e XYZ. Esta abordagem suporta adaptabilidade multitarefa por meio de uma estratégia flexível de inpainting. Por exemplo, o WVD pode estimar quadros XYZ a partir de RGB verdadeiro ou gerar novos quadros RGB usando projeções XYZ ao longo de uma trajetória de câmera especificada. Ao fazer isso, o WVD unifica tarefas como geração de imagem única para 3D, estéreo de múltiplas vistas e geração de vídeo controlado por câmera. Nossa abordagem demonstra desempenho competitivo em vários benchmarks, fornecendo uma solução escalável para geração de vídeo e imagem 3D consistente com um único modelo pré-treinado.
English
Recent advancements in diffusion models have set new benchmarks in image and video generation, enabling realistic visual synthesis across single- and multi-frame contexts. However, these models still struggle with efficiently and explicitly generating 3D-consistent content. To address this, we propose World-consistent Video Diffusion (WVD), a novel framework that incorporates explicit 3D supervision using XYZ images, which encode global 3D coordinates for each image pixel. More specifically, we train a diffusion transformer to learn the joint distribution of RGB and XYZ frames. This approach supports multi-task adaptability via a flexible inpainting strategy. For example, WVD can estimate XYZ frames from ground-truth RGB or generate novel RGB frames using XYZ projections along a specified camera trajectory. In doing so, WVD unifies tasks like single-image-to-3D generation, multi-view stereo, and camera-controlled video generation. Our approach demonstrates competitive performance across multiple benchmarks, providing a scalable solution for 3D-consistent video and image generation with a single pretrained model.

Summary

AI-Generated Summary

PDF42December 3, 2024