MeshFormer: Generación de malla de alta calidad con Reconstrucción Guiada en 3D del Modelo

Resumen

Los modelos de reconstrucción 3D de mundo abierto han recibido recientemente una atención significativa. Sin embargo, sin un sesgo inductivo 3D suficiente, los métodos existentes suelen implicar costos de entrenamiento costosos y tienen dificultades para extraer mallas 3D de alta calidad. En este trabajo, presentamos MeshFormer, un modelo de reconstrucción de vista dispersa que aprovecha explícitamente la estructura nativa 3D, la guía de entrada y la supervisión de entrenamiento. Específicamente, en lugar de utilizar una representación de triplano, almacenamos características en voxels dispersos en 3D y combinamos transformadores con convoluciones 3D para aprovechar una estructura 3D explícita y un sesgo proyectivo. Además de la entrada RGB de vista dispersa, requerimos que la red reciba una entrada y genere mapas normales correspondientes. Los mapas normales de entrada pueden ser predichos por modelos de difusión 2D, lo que ayuda significativamente en la guía y refinamiento del aprendizaje de la geometría. Además, al combinar la supervisión de la Función de Distancia Firmada (SDF) con el renderizado de superficies, aprendemos directamente a generar mallas de alta calidad sin necesidad de procesos de entrenamiento multi-etapa complejos. Al incorporar estos sesgos 3D explícitos, MeshFormer puede ser entrenado de manera eficiente y producir mallas texturizadas de alta calidad con detalles geométricos refinados. También puede integrarse con modelos de difusión 2D para habilitar tareas rápidas de imagen única a 3D y texto a 3D. Página del proyecto: https://meshformer3d.github.io

English

Open-world 3D reconstruction models have recently garnered significant attention. However, without sufficient 3D inductive bias, existing methods typically entail expensive training costs and struggle to extract high-quality 3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction model that explicitly leverages 3D native structure, input guidance, and training supervision. Specifically, instead of using a triplane representation, we store features in 3D sparse voxels and combine transformers with 3D convolutions to leverage an explicit 3D structure and projective bias. In addition to sparse-view RGB input, we require the network to take input and generate corresponding normal maps. The input normal maps can be predicted by 2D diffusion models, significantly aiding in the guidance and refinement of the geometry's learning. Moreover, by combining Signed Distance Function (SDF) supervision with surface rendering, we directly learn to generate high-quality meshes without the need for complex multi-stage training processes. By incorporating these explicit 3D biases, MeshFormer can be trained efficiently and deliver high-quality textured meshes with fine-grained geometric details. It can also be integrated with 2D diffusion models to enable fast single-image-to-3D and text-to-3D tasks. Project page: https://meshformer3d.github.io

MeshFormer: Generación de malla de alta calidad con Reconstrucción Guiada en 3D del Modelo

MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

Resumen

Support