Vivid-ZOO: 拡散モデルを用いたマルチビュー動画生成
Vivid-ZOO: Multi-View Video Generation with Diffusion Model
June 12, 2024
著者: Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem
cs.AI
要旨
拡散モデルは2D画像/動画生成において印象的な性能を示しているが、テキストからマルチビュー動画(T2MVid)を生成する拡散ベースの手法はまだ十分に探究されていない。T2MVid生成が直面する新たな課題は、キャプション付きの大規模なマルチビュー動画データの不足と、そのような多次元分布をモデル化する複雑さにある。この問題に対処するため、我々はテキストから動的な3Dオブジェクトを中心とした高品質なマルチビュー動画を生成する新しい拡散ベースのパイプラインを提案する。具体的には、T2MVid問題を視点空間と時間の要素に分解する。この分解により、事前学習済みのマルチビュー画像拡散モデルと2D動画拡散モデルの層を組み合わせて再利用し、生成されたマルチビュー動画のマルチビュー一貫性と時間的整合性を確保することで、大幅に訓練コストを削減する。さらに、2Dデータとマルチビューデータのドメインギャップに起因する再利用層の非互換性に対処するため、事前学習済みのマルチビュー拡散モデルと2D動画拡散モデルの層の潜在空間を整合させるアライメントモジュールを導入する。本研究および今後の研究を支援するため、キャプション付きのマルチビュー動画データセットも提供する。実験結果は、提案手法が多様なテキストプロンプトを与えられた場合に、鮮やかな動き、時間的整合性、マルチビュー一貫性を備えた高品質なマルチビュー動画を生成することを示している。
English
While diffusion models have shown impressive performance in 2D image/video
generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation
remains underexplored. The new challenges posed by T2MVid generation lie in the
lack of massive captioned multi-view videos and the complexity of modeling such
multi-dimensional distribution. To this end, we propose a novel diffusion-based
pipeline that generates high-quality multi-view videos centered around a
dynamic 3D object from text. Specifically, we factor the T2MVid problem into
viewpoint-space and time components. Such factorization allows us to combine
and reuse layers of advanced pre-trained multi-view image and 2D video
diffusion models to ensure multi-view consistency as well as temporal coherence
for the generated multi-view videos, largely reducing the training cost. We
further introduce alignment modules to align the latent spaces of layers from
the pre-trained multi-view and the 2D video diffusion models, addressing the
reused layers' incompatibility that arises from the domain gap between 2D and
multi-view data. In support of this and future research, we further contribute
a captioned multi-view video dataset. Experimental results demonstrate that our
method generates high-quality multi-view videos, exhibiting vivid motions,
temporal coherence, and multi-view consistency, given a variety of text
prompts.Summary
AI-Generated Summary