MeshFormer: 3Dガイド付き再構成による高品質メッシュ生成モデル
MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model
August 19, 2024
著者: Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su
cs.AI
要旨
オープンワールド3D再構成モデルは近年、大きな注目を集めています。しかし、十分な3D帰納バイアスがない場合、既存の手法は通常、高額なトレーニングコストを伴い、高品質な3Dメッシュの抽出に苦労します。本研究では、3Dネイティブ構造、入力ガイダンス、およびトレーニング監視を明示的に活用するスパースビュー再構成モデルであるMeshFormerを紹介します。具体的には、トライプレーン表現を使用する代わりに、特徴を3Dスパースボクセルに格納し、トランスフォーマーと3D畳み込みを組み合わせて、明示的な3D構造と射影バイアスを活用します。スパースビューRGB入力に加えて、ネットワークに入力させ、対応する法線マップを生成させます。入力法線マップは2D拡散モデルによって予測可能であり、ジオメトリ学習のガイダンスと洗練に大きく役立ちます。さらに、符号付き距離関数(SDF)監視と表面レンダリングを組み合わせることで、複雑な多段階トレーニングプロセスを必要とせずに、高品質なメッシュを直接生成することを学びます。これらの明示的な3Dバイアスを組み込むことにより、MeshFormerは効率的にトレーニングでき、細かい幾何学的ディテールを持つ高品質なテクスチャ付きメッシュを提供できます。また、2D拡散モデルと統合して、高速な単一画像から3D、およびテキストから3Dのタスクを可能にします。プロジェクトページ: https://meshformer3d.github.io
English
Open-world 3D reconstruction models have recently garnered significant
attention. However, without sufficient 3D inductive bias, existing methods
typically entail expensive training costs and struggle to extract high-quality
3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction
model that explicitly leverages 3D native structure, input guidance, and
training supervision. Specifically, instead of using a triplane representation,
we store features in 3D sparse voxels and combine transformers with 3D
convolutions to leverage an explicit 3D structure and projective bias. In
addition to sparse-view RGB input, we require the network to take input and
generate corresponding normal maps. The input normal maps can be predicted by
2D diffusion models, significantly aiding in the guidance and refinement of the
geometry's learning. Moreover, by combining Signed Distance Function (SDF)
supervision with surface rendering, we directly learn to generate high-quality
meshes without the need for complex multi-stage training processes. By
incorporating these explicit 3D biases, MeshFormer can be trained efficiently
and deliver high-quality textured meshes with fine-grained geometric details.
It can also be integrated with 2D diffusion models to enable fast
single-image-to-3D and text-to-3D tasks. Project page:
https://meshformer3d.github.ioSummary
AI-Generated Summary