ChatPaper.aiChatPaper

MeshFormer: 3Dガイド付き再構成による高品質メッシュ生成モデル

MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

August 19, 2024
著者: Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su
cs.AI

要旨

オープンワールド3D再構成モデルは近年、大きな注目を集めています。しかし、十分な3D帰納バイアスがない場合、既存の手法は通常、高額なトレーニングコストを伴い、高品質な3Dメッシュの抽出に苦労します。本研究では、3Dネイティブ構造、入力ガイダンス、およびトレーニング監視を明示的に活用するスパースビュー再構成モデルであるMeshFormerを紹介します。具体的には、トライプレーン表現を使用する代わりに、特徴を3Dスパースボクセルに格納し、トランスフォーマーと3D畳み込みを組み合わせて、明示的な3D構造と射影バイアスを活用します。スパースビューRGB入力に加えて、ネットワークに入力させ、対応する法線マップを生成させます。入力法線マップは2D拡散モデルによって予測可能であり、ジオメトリ学習のガイダンスと洗練に大きく役立ちます。さらに、符号付き距離関数(SDF)監視と表面レンダリングを組み合わせることで、複雑な多段階トレーニングプロセスを必要とせずに、高品質なメッシュを直接生成することを学びます。これらの明示的な3Dバイアスを組み込むことにより、MeshFormerは効率的にトレーニングでき、細かい幾何学的ディテールを持つ高品質なテクスチャ付きメッシュを提供できます。また、2D拡散モデルと統合して、高速な単一画像から3D、およびテキストから3Dのタスクを可能にします。プロジェクトページ: https://meshformer3d.github.io
English
Open-world 3D reconstruction models have recently garnered significant attention. However, without sufficient 3D inductive bias, existing methods typically entail expensive training costs and struggle to extract high-quality 3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction model that explicitly leverages 3D native structure, input guidance, and training supervision. Specifically, instead of using a triplane representation, we store features in 3D sparse voxels and combine transformers with 3D convolutions to leverage an explicit 3D structure and projective bias. In addition to sparse-view RGB input, we require the network to take input and generate corresponding normal maps. The input normal maps can be predicted by 2D diffusion models, significantly aiding in the guidance and refinement of the geometry's learning. Moreover, by combining Signed Distance Function (SDF) supervision with surface rendering, we directly learn to generate high-quality meshes without the need for complex multi-stage training processes. By incorporating these explicit 3D biases, MeshFormer can be trained efficiently and deliver high-quality textured meshes with fine-grained geometric details. It can also be integrated with 2D diffusion models to enable fast single-image-to-3D and text-to-3D tasks. Project page: https://meshformer3d.github.io

Summary

AI-Generated Summary

PDF363November 19, 2024