明示的な3Dモデリングを用いた世界一貫性のあるビデオ拡散
World-consistent Video Diffusion with Explicit 3D Modeling
December 2, 2024
著者: Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
cs.AI
要旨
最近の拡散モデルの進歩により、画像および動画生成において新たな基準が設定され、単一フレームおよび複数フレームの文脈にわたるリアルな視覚合成が可能となりました。しかしながら、これらのモデルは依然として効率的かつ明示的に3D整合性のあるコンテンツを生成することに苦労しています。この課題に対処するために、私たちはWorld-consistent Video Diffusion(WVD)を提案します。これは、各画像ピクセルのためにグローバルな3D座標をエンコードするXYZ画像を使用して明示的な3D監督を組み込む革新的なフレームワークです。具体的には、RGBフレームとXYZフレームの同時分布を学習するために拡散トランスフォーマーを訓練します。このアプローチは、柔軟なインペインティング戦略を介してマルチタスク適応性をサポートします。例えば、WVDは、正解のRGBからXYZフレームを推定したり、指定されたカメラ軌道に沿ってXYZ投影を使用して新しいRGBフレームを生成したりすることができます。これにより、WVDは単一画像から3D生成、多視点ステレオ、およびカメラ制御された動画生成などのタスクを統一します。私たちのアプローチは、複数のベンチマークにおいて競争力のあるパフォーマンスを示し、単一の事前学習済みモデルで3D整合性のあるビデオおよび画像生成のためのスケーラブルなソリューションを提供します。
English
Recent advancements in diffusion models have set new benchmarks in image and
video generation, enabling realistic visual synthesis across single- and
multi-frame contexts. However, these models still struggle with efficiently and
explicitly generating 3D-consistent content. To address this, we propose
World-consistent Video Diffusion (WVD), a novel framework that incorporates
explicit 3D supervision using XYZ images, which encode global 3D coordinates
for each image pixel. More specifically, we train a diffusion transformer to
learn the joint distribution of RGB and XYZ frames. This approach supports
multi-task adaptability via a flexible inpainting strategy. For example, WVD
can estimate XYZ frames from ground-truth RGB or generate novel RGB frames
using XYZ projections along a specified camera trajectory. In doing so, WVD
unifies tasks like single-image-to-3D generation, multi-view stereo, and
camera-controlled video generation. Our approach demonstrates competitive
performance across multiple benchmarks, providing a scalable solution for
3D-consistent video and image generation with a single pretrained model.Summary
AI-Generated Summary