Vid3D: 2Dビデオ拡散モデルを用いた動的3Dシーンの合成
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion
June 17, 2024
著者: Rishab Parthasarathy, Zack Ankner, Aaron Gokaslan
cs.AI
要旨
コンピュータビジョンの最新のフロンティアの一つとして、3Dビデオ生成のタスクが挙げられます。これは、シーンの時間変化する3D表現を生成するものです。動的な3Dシーンを生成するために、現在の手法では、時間と視点の両方にわたる一貫性を共同で最適化することにより、3Dの時間的ダイナミクスを明示的にモデル化しています。本論文では、現在のアプローチのように、時間にわたる多視点一貫性を明示的に強制する必要があるのか、あるいは各タイムステップの3D表現を独立して生成するだけで十分なのかを検証します。そこで我々は、Vid3Dというモデルを提案します。このモデルは、2Dビデオ拡散を活用して3Dビデオを生成するもので、まずビデオの時間的ダイナミクスの2D「シード」を生成し、その後シードビデオの各タイムステップの3D表現を独立して生成します。Vid3Dを2つの最先端の3Dビデオ生成手法と比較評価した結果、Vid3Dは3Dの時間的ダイナミクスを明示的にモデル化していないにもかかわらず、同等の結果を達成することがわかりました。さらに、Vid3Dの品質がフレームごとに生成される視点の数にどのように依存するかを検証しました。視点が少ない場合に若干の品質低下が観察されましたが、性能の低下は軽微なものでした。これらの結果から、高品質な動的3Dシーンを生成するために3Dの時間的知識が必要ない可能性が示唆され、このタスクに対するよりシンプルな生成アルゴリズムの実現が期待されます。
English
A recent frontier in computer vision has been the task of 3D video
generation, which consists of generating a time-varying 3D representation of a
scene. To generate dynamic 3D scenes, current methods explicitly model 3D
temporal dynamics by jointly optimizing for consistency across both time and
views of the scene. In this paper, we instead investigate whether it is
necessary to explicitly enforce multiview consistency over time, as current
approaches do, or if it is sufficient for a model to generate 3D
representations of each timestep independently. We hence propose a model,
Vid3D, that leverages 2D video diffusion to generate 3D videos by first
generating a 2D "seed" of the video's temporal dynamics and then independently
generating a 3D representation for each timestep in the seed video. We evaluate
Vid3D against two state-of-the-art 3D video generation methods and find that
Vid3D is achieves comparable results despite not explicitly modeling 3D
temporal dynamics. We further ablate how the quality of Vid3D depends on the
number of views generated per frame. While we observe some degradation with
fewer views, performance degradation remains minor. Our results thus suggest
that 3D temporal knowledge may not be necessary to generate high-quality
dynamic 3D scenes, potentially enabling simpler generative algorithms for this
task.Summary
AI-Generated Summary