ChatPaper.aiChatPaper

MeshFormer : Génération de maillages de haute qualité avec reconstruction guidée en 3D

MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

August 19, 2024
Auteurs: Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su
cs.AI

Résumé

Les modèles de reconstruction 3D en monde ouvert ont récemment suscité un intérêt considérable. Cependant, en l'absence d'un biais inductif 3D suffisant, les méthodes existantes entraînent généralement des coûts d'entraînement élevés et peinent à extraire des maillages 3D de haute qualité. Dans ce travail, nous présentons MeshFormer, un modèle de reconstruction à vues éparses qui exploite explicitement la structure native 3D, les indications en entrée et la supervision lors de l'entraînement. Plus précisément, au lieu d'utiliser une représentation en triplan, nous stockons les caractéristiques dans des voxels 3D épars et combinons des transformers avec des convolutions 3D pour tirer parti d'une structure 3D explicite et d'un biais projectif. En plus de l'entrée RGB à vues éparses, nous demandons au réseau de prendre en entrée et de générer des cartes de normales correspondantes. Les cartes de normales en entrée peuvent être prédites par des modèles de diffusion 2D, ce qui aide considérablement à guider et à affiner l'apprentissage de la géométrie. De plus, en combinant la supervision par fonction de distance signée (SDF) avec le rendu de surface, nous apprenons directement à générer des maillages de haute qualité sans avoir besoin de processus d'entraînement multi-étapes complexes. En intégrant ces biais 3D explicites, MeshFormer peut être entraîné efficacement et produire des maillages texturés de haute qualité avec des détails géométriques fins. Il peut également être intégré avec des modèles de diffusion 2D pour permettre des tâches rapides de conversion d'une seule image en 3D et de texte en 3D. Page du projet : https://meshformer3d.github.io
English
Open-world 3D reconstruction models have recently garnered significant attention. However, without sufficient 3D inductive bias, existing methods typically entail expensive training costs and struggle to extract high-quality 3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction model that explicitly leverages 3D native structure, input guidance, and training supervision. Specifically, instead of using a triplane representation, we store features in 3D sparse voxels and combine transformers with 3D convolutions to leverage an explicit 3D structure and projective bias. In addition to sparse-view RGB input, we require the network to take input and generate corresponding normal maps. The input normal maps can be predicted by 2D diffusion models, significantly aiding in the guidance and refinement of the geometry's learning. Moreover, by combining Signed Distance Function (SDF) supervision with surface rendering, we directly learn to generate high-quality meshes without the need for complex multi-stage training processes. By incorporating these explicit 3D biases, MeshFormer can be trained efficiently and deliver high-quality textured meshes with fine-grained geometric details. It can also be integrated with 2D diffusion models to enable fast single-image-to-3D and text-to-3D tasks. Project page: https://meshformer3d.github.io

Summary

AI-Generated Summary

PDF363November 19, 2024