VFusion3D: ビデオ拡散モデルからスケーラブルな3D生成モデルを学習する
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
March 18, 2024
著者: Junlin Han, Filippos Kokkinos, Philip Torr
cs.AI
要旨
本論文では、事前学習済みのビデオ拡散モデルを活用してスケーラブルな3D生成モデルを構築するための新たなパラダイムを提案する。基盤となる3D生成モデルの開発における主な障壁は、3Dデータの限られた可用性である。画像、テキスト、またはビデオとは異なり、3Dデータは容易にアクセスできず、取得が困難である。その結果、他の種類のデータの膨大な量と比較して、規模に大きな隔たりが生じている。この問題に対処するため、我々は、テキスト、画像、ビデオの大規模なデータセットで学習されたビデオ拡散モデルを3Dデータの知識源として利用することを提案する。ファインチューニングを通じてその多視点生成能力を解放し、大規模な合成多視点データセットを生成して、フィードフォワード型の3D生成モデルを学習させる。提案するモデルVFusion3Dは、約300万の合成多視点データで学習され、単一の画像から数秒で3Dアセットを生成することができる。現在の最先端(SOTA)のフィードフォワード型3D生成モデルと比較して優れた性能を発揮し、ユーザーの70%以上が我々の結果を好むことが確認された。
English
This paper presents a novel paradigm for building scalable 3D generative
models utilizing pre-trained video diffusion models. The primary obstacle in
developing foundation 3D generative models is the limited availability of 3D
data. Unlike images, texts, or videos, 3D data are not readily accessible and
are difficult to acquire. This results in a significant disparity in scale
compared to the vast quantities of other types of data. To address this issue,
we propose using a video diffusion model, trained with extensive volumes of
text, images, and videos, as a knowledge source for 3D data. By unlocking its
multi-view generative capabilities through fine-tuning, we generate a
large-scale synthetic multi-view dataset to train a feed-forward 3D generative
model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view
data, can generate a 3D asset from a single image in seconds and achieves
superior performance when compared to current SOTA feed-forward 3D generative
models, with users preferring our results over 70% of the time.Summary
AI-Generated Summary