MeshFormer: Geração de Malha de Alta Qualidade com Reconstrução Guiada por 3D Modelo
MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model
August 19, 2024
Autores: Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su
cs.AI
Resumo
Os modelos de reconstrução 3D de mundo aberto têm recebido recentemente uma atenção significativa. No entanto, sem viés indutivo 3D suficiente, os métodos existentes geralmente envolvem custos de treinamento elevados e têm dificuldade em extrair malhas 3D de alta qualidade. Neste trabalho, apresentamos o MeshFormer, um modelo de reconstrução de visualização esparsa que alavanca explicitamente a estrutura nativa 3D, orientação de entrada e supervisão de treinamento. Especificamente, em vez de usar uma representação de triplano, armazenamos características em voxels esparsos 3D e combinamos transformadores com convoluções 3D para alavancar uma estrutura 3D explícita e viés projetivo. Além da entrada RGB de visualização esparsa, exigimos que a rede receba entrada e gere mapas normais correspondentes. Os mapas normais de entrada podem ser previstos por modelos de difusão 2D, auxiliando significativamente no guia e refinamento do aprendizado da geometria. Além disso, ao combinar a supervisão da Função de Distância Assinada (SDF) com renderização de superfície, aprendemos diretamente a gerar malhas de alta qualidade sem a necessidade de processos de treinamento complexos em múltiplos estágios. Ao incorporar esses viés 3D explícitos, o MeshFormer pode ser treinado de forma eficiente e fornecer malhas texturizadas de alta qualidade com detalhes geométricos refinados. Ele também pode ser integrado com modelos de difusão 2D para habilitar tarefas rápidas de imagem única para 3D e texto para 3D. Página do projeto: https://meshformer3d.github.io
English
Open-world 3D reconstruction models have recently garnered significant
attention. However, without sufficient 3D inductive bias, existing methods
typically entail expensive training costs and struggle to extract high-quality
3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction
model that explicitly leverages 3D native structure, input guidance, and
training supervision. Specifically, instead of using a triplane representation,
we store features in 3D sparse voxels and combine transformers with 3D
convolutions to leverage an explicit 3D structure and projective bias. In
addition to sparse-view RGB input, we require the network to take input and
generate corresponding normal maps. The input normal maps can be predicted by
2D diffusion models, significantly aiding in the guidance and refinement of the
geometry's learning. Moreover, by combining Signed Distance Function (SDF)
supervision with surface rendering, we directly learn to generate high-quality
meshes without the need for complex multi-stage training processes. By
incorporating these explicit 3D biases, MeshFormer can be trained efficiently
and deliver high-quality textured meshes with fine-grained geometric details.
It can also be integrated with 2D diffusion models to enable fast
single-image-to-3D and text-to-3D tasks. Project page:
https://meshformer3d.github.ioSummary
AI-Generated Summary