DMV3D:3D大規模再構成モデルを用いたノイズ除去マルチビュー拡散
DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model
November 15, 2023
著者: Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang
cs.AI
要旨
我々はDMV3Dを提案する。これは、トランスフォーマーベースの3D大規模再構成モデルを用いてマルチビュー拡散をノイズ除去する新しい3D生成手法である。我々の再構成モデルはtriplane NeRF表現を組み込んでおり、NeRF再構成とレンダリングを通じてノイズの多いマルチビュー画像をノイズ除去し、単一A100 GPU上で約30秒のシングルステージ3D生成を実現する。DMV3Dは、3Dアセットにアクセスすることなく、画像再構成損失のみを用いて、高度に多様なオブジェクトの大規模マルチビュー画像データセットで学習される。我々は、未見のオブジェクト部分の確率的モデリングが必要とされる単一画像再構成問題において、シャープなテクスチャを持つ多様な再構成を生成するための最先端の結果を示す。また、従来の3D拡散モデルを凌駕する高品質なテキストから3D生成の結果も示す。プロジェクトウェブサイトは以下: https://justimyhxu.github.io/projects/dmv3d/
English
We propose DMV3D, a novel 3D generation approach that uses a
transformer-based 3D large reconstruction model to denoise multi-view
diffusion. Our reconstruction model incorporates a triplane NeRF representation
and can denoise noisy multi-view images via NeRF reconstruction and rendering,
achieving single-stage 3D generation in sim30s on single A100 GPU. We train
DMV3D on large-scale multi-view image datasets of highly diverse
objects using only image reconstruction losses, without accessing 3D assets. We
demonstrate state-of-the-art results for the single-image reconstruction
problem where probabilistic modeling of unseen object parts is required for
generating diverse reconstructions with sharp textures. We also show
high-quality text-to-3D generation results outperforming previous 3D diffusion
models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ .