Мировая консистентность видео-диффузии с явным 3D-моделированием.
World-consistent Video Diffusion with Explicit 3D Modeling
December 2, 2024
Авторы: Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
cs.AI
Аннотация
Недавние достижения в моделях диффузии установили новые стандарты в генерации изображений и видео, обеспечивая реалистичный визуальный синтез как в однокадровых, так и в многокадровых контекстах. Однако эти модели все еще испытывают трудности с эффективной и явной генерацией содержимого, согласованного в 3D. Для решения этой проблемы мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явное 3D-наблюдение с использованием изображений XYZ, кодирующих глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем трансформер диффузии для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность через гибкую стратегию заполнения пропусков. Например, WVD может оценивать кадры XYZ из исходных RGB или генерировать новые RGB кадры, используя проекции XYZ вдоль указанной траектории камеры. Таким образом, WVD объединяет задачи, такие как генерация 3D из одного изображения, многоплановая стереоскопия и генерация видео под управлением камеры. Наш подход продемонстрировал конкурентоспособную производительность на нескольких платформах, предоставляя масштабируемое решение для генерации 3D-согласованных видео и изображений с использованием одной предварительно обученной модели.
English
Recent advancements in diffusion models have set new benchmarks in image and
video generation, enabling realistic visual synthesis across single- and
multi-frame contexts. However, these models still struggle with efficiently and
explicitly generating 3D-consistent content. To address this, we propose
World-consistent Video Diffusion (WVD), a novel framework that incorporates
explicit 3D supervision using XYZ images, which encode global 3D coordinates
for each image pixel. More specifically, we train a diffusion transformer to
learn the joint distribution of RGB and XYZ frames. This approach supports
multi-task adaptability via a flexible inpainting strategy. For example, WVD
can estimate XYZ frames from ground-truth RGB or generate novel RGB frames
using XYZ projections along a specified camera trajectory. In doing so, WVD
unifies tasks like single-image-to-3D generation, multi-view stereo, and
camera-controlled video generation. Our approach demonstrates competitive
performance across multiple benchmarks, providing a scalable solution for
3D-consistent video and image generation with a single pretrained model.Summary
AI-Generated Summary