ChatPaper.aiChatPaper

MeshFormer: Generazione di Mesh di Alta Qualità con Ricostruzione Guidata in 3D Modello

MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

August 19, 2024
Autori: Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su
cs.AI

Abstract

I modelli di ricostruzione 3D in mondi aperti hanno recentemente attirato una significativa attenzione. Tuttavia, senza un adeguato bias induttivo 3D, i metodi esistenti comportano tipicamente costi di addestramento elevati e faticano a estrarre mesh 3D di alta qualità. In questo lavoro, introduciamo MeshFormer, un modello di ricostruzione a vista sparsa che sfrutta esplicitamente la struttura nativa 3D, la guida in ingresso e la supervisione durante l'addestramento. Nello specifico, invece di utilizzare una rappresentazione triplanare, memorizziamo le feature in voxel sparsi 3D e combiniamo i transformer con convoluzioni 3D per sfruttare una struttura 3D esplicita e un bias proiettivo. Oltre all'input RGB a vista sparsa, richiediamo alla rete di accettare in ingresso e generare mappe normali corrispondenti. Le mappe normali in ingresso possono essere predette da modelli di diffusione 2D, contribuendo significativamente alla guida e al perfezionamento dell'apprendimento della geometria. Inoltre, combinando la supervisione della Signed Distance Function (SDF) con il rendering della superficie, apprendiamo direttamente a generare mesh di alta qualità senza la necessità di complessi processi di addestramento multi-stadio. Incorporando questi bias 3D espliciti, MeshFormer può essere addestrato in modo efficiente e produrre mesh testurizzate di alta qualità con dettagli geometrici fini. Può anche essere integrato con modelli di diffusione 2D per abilitare rapidamente task di single-image-to-3D e text-to-3D. Pagina del progetto: https://meshformer3d.github.io
English
Open-world 3D reconstruction models have recently garnered significant attention. However, without sufficient 3D inductive bias, existing methods typically entail expensive training costs and struggle to extract high-quality 3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction model that explicitly leverages 3D native structure, input guidance, and training supervision. Specifically, instead of using a triplane representation, we store features in 3D sparse voxels and combine transformers with 3D convolutions to leverage an explicit 3D structure and projective bias. In addition to sparse-view RGB input, we require the network to take input and generate corresponding normal maps. The input normal maps can be predicted by 2D diffusion models, significantly aiding in the guidance and refinement of the geometry's learning. Moreover, by combining Signed Distance Function (SDF) supervision with surface rendering, we directly learn to generate high-quality meshes without the need for complex multi-stage training processes. By incorporating these explicit 3D biases, MeshFormer can be trained efficiently and deliver high-quality textured meshes with fine-grained geometric details. It can also be integrated with 2D diffusion models to enable fast single-image-to-3D and text-to-3D tasks. Project page: https://meshformer3d.github.io
PDF353November 19, 2024