DiMeR: Modelo de Reconstrucción de Mallas Disentrelazadas
DiMeR: Disentangled Mesh Reconstruction Model
April 24, 2025
Autores: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI
Resumen
Con la llegada de conjuntos de datos 3D a gran escala, los modelos generativos 3D de avance directo, como el Modelo de Reconstrucción a Gran Escala (LRM), han captado una atención significativa y han logrado un éxito notable. Sin embargo, observamos que las imágenes RGB a menudo conducen a objetivos de entrenamiento conflictivos y carecen de la claridad necesaria para la reconstrucción de geometría. En este artículo, revisitamos los sesgos inductivos asociados con la reconstrucción de mallas e introducimos DiMeR, un novedoso modelo de avance directo de doble flujo desacoplado para la reconstrucción de mallas con vistas escasas. La idea clave es desacoplar tanto la entrada como el marco en partes de geometría y textura, reduciendo así la dificultad de entrenamiento para cada parte según el Principio de la Navaja de Occam. Dado que los mapas normales son estrictamente consistentes con la geometría y capturan con precisión las variaciones de la superficie, utilizamos mapas normales como entrada exclusiva para la rama de geometría, reduciendo la complejidad entre la entrada y la salida de la red. Además, mejoramos el algoritmo de extracción de mallas para introducir supervisión de verdad terreno en 3D. En cuanto a la rama de textura, utilizamos imágenes RGB como entrada para obtener la malla texturizada. En general, DiMeR demuestra capacidades robustas en diversas tareas, incluyendo la reconstrucción con vistas escasas, la conversión de imagen única a 3D y la generación de texto a 3D. Numerosos experimentos muestran que DiMeR supera significativamente a métodos anteriores, logrando una mejora de más del 30% en la Distancia de Chamfer en los conjuntos de datos GSO y OmniObject3D.
English
With the advent of large-scale 3D datasets, feed-forward 3D generative
models, such as the Large Reconstruction Model (LRM), have gained significant
attention and achieved remarkable success. However, we observe that RGB images
often lead to conflicting training objectives and lack the necessary clarity
for geometry reconstruction. In this paper, we revisit the inductive biases
associated with mesh reconstruction and introduce DiMeR, a novel disentangled
dual-stream feed-forward model for sparse-view mesh reconstruction. The key
idea is to disentangle both the input and framework into geometry and texture
parts, thereby reducing the training difficulty for each part according to the
Principle of Occam's Razor. Given that normal maps are strictly consistent with
geometry and accurately capture surface variations, we utilize normal maps as
exclusive input for the geometry branch to reduce the complexity between the
network's input and output. Moreover, we improve the mesh extraction algorithm
to introduce 3D ground truth supervision. As for texture branch, we use RGB
images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust
capabilities across various tasks, including sparse-view reconstruction,
single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR
significantly outperforms previous methods, achieving over 30% improvement in
Chamfer Distance on the GSO and OmniObject3D dataset.Summary
AI-Generated Summary