MeshFormer: Generación de malla de alta calidad con Reconstrucción Guiada en 3D del Modelo
MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model
August 19, 2024
Autores: Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su
cs.AI
Resumen
Los modelos de reconstrucción 3D de mundo abierto han recibido recientemente una atención significativa. Sin embargo, sin un sesgo inductivo 3D suficiente, los métodos existentes suelen implicar costos de entrenamiento costosos y tienen dificultades para extraer mallas 3D de alta calidad. En este trabajo, presentamos MeshFormer, un modelo de reconstrucción de vista dispersa que aprovecha explícitamente la estructura nativa 3D, la guía de entrada y la supervisión de entrenamiento. Específicamente, en lugar de utilizar una representación de triplano, almacenamos características en voxels dispersos en 3D y combinamos transformadores con convoluciones 3D para aprovechar una estructura 3D explícita y un sesgo proyectivo. Además de la entrada RGB de vista dispersa, requerimos que la red reciba una entrada y genere mapas normales correspondientes. Los mapas normales de entrada pueden ser predichos por modelos de difusión 2D, lo que ayuda significativamente en la guía y refinamiento del aprendizaje de la geometría. Además, al combinar la supervisión de la Función de Distancia Firmada (SDF) con el renderizado de superficies, aprendemos directamente a generar mallas de alta calidad sin necesidad de procesos de entrenamiento multi-etapa complejos. Al incorporar estos sesgos 3D explícitos, MeshFormer puede ser entrenado de manera eficiente y producir mallas texturizadas de alta calidad con detalles geométricos refinados. También puede integrarse con modelos de difusión 2D para habilitar tareas rápidas de imagen única a 3D y texto a 3D. Página del proyecto: https://meshformer3d.github.io
English
Open-world 3D reconstruction models have recently garnered significant
attention. However, without sufficient 3D inductive bias, existing methods
typically entail expensive training costs and struggle to extract high-quality
3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction
model that explicitly leverages 3D native structure, input guidance, and
training supervision. Specifically, instead of using a triplane representation,
we store features in 3D sparse voxels and combine transformers with 3D
convolutions to leverage an explicit 3D structure and projective bias. In
addition to sparse-view RGB input, we require the network to take input and
generate corresponding normal maps. The input normal maps can be predicted by
2D diffusion models, significantly aiding in the guidance and refinement of the
geometry's learning. Moreover, by combining Signed Distance Function (SDF)
supervision with surface rendering, we directly learn to generate high-quality
meshes without the need for complex multi-stage training processes. By
incorporating these explicit 3D biases, MeshFormer can be trained efficiently
and deliver high-quality textured meshes with fine-grained geometric details.
It can also be integrated with 2D diffusion models to enable fast
single-image-to-3D and text-to-3D tasks. Project page:
https://meshformer3d.github.ioSummary
AI-Generated Summary