Мировая консистентность видео-диффузии с явным 3D-моделированием.

Аннотация

Недавние достижения в моделях диффузии установили новые стандарты в генерации изображений и видео, обеспечивая реалистичный визуальный синтез как в однокадровых, так и в многокадровых контекстах. Однако эти модели все еще испытывают трудности с эффективной и явной генерацией содержимого, согласованного в 3D. Для решения этой проблемы мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явное 3D-наблюдение с использованием изображений XYZ, кодирующих глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем трансформер диффузии для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность через гибкую стратегию заполнения пропусков. Например, WVD может оценивать кадры XYZ из исходных RGB или генерировать новые RGB кадры, используя проекции XYZ вдоль указанной траектории камеры. Таким образом, WVD объединяет задачи, такие как генерация 3D из одного изображения, многоплановая стереоскопия и генерация видео под управлением камеры. Наш подход продемонстрировал конкурентоспособную производительность на нескольких платформах, предоставляя масштабируемое решение для генерации 3D-согласованных видео и изображений с использованием одной предварительно обученной модели.

English

Recent advancements in diffusion models have set new benchmarks in image and video generation, enabling realistic visual synthesis across single- and multi-frame contexts. However, these models still struggle with efficiently and explicitly generating 3D-consistent content. To address this, we propose World-consistent Video Diffusion (WVD), a novel framework that incorporates explicit 3D supervision using XYZ images, which encode global 3D coordinates for each image pixel. More specifically, we train a diffusion transformer to learn the joint distribution of RGB and XYZ frames. This approach supports multi-task adaptability via a flexible inpainting strategy. For example, WVD can estimate XYZ frames from ground-truth RGB or generate novel RGB frames using XYZ projections along a specified camera trajectory. In doing so, WVD unifies tasks like single-image-to-3D generation, multi-view stereo, and camera-controlled video generation. Our approach demonstrates competitive performance across multiple benchmarks, providing a scalable solution for 3D-consistent video and image generation with a single pretrained model.

Мировая консистентность видео-диффузии с явным 3D-моделированием.

World-consistent Video Diffusion with Explicit 3D Modeling

Аннотация

Support