DiMeR: Modelo de Reconstrução de Malha Desembaraçada
DiMeR: Disentangled Mesh Reconstruction Model
April 24, 2025
Autores: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI
Resumo
Com o advento de grandes conjuntos de dados 3D, modelos generativos 3D de propagação direta, como o Large Reconstruction Model (LRM), ganharam atenção significativa e alcançaram sucesso notável. No entanto, observamos que imagens RGB frequentemente levam a objetivos de treinamento conflitantes e carecem da clareza necessária para a reconstrução geométrica. Neste artigo, revisitamos os vieses indutivos associados à reconstrução de malhas e introduzimos o DiMeR, um novo modelo de propagação direta de fluxo duplo desacoplado para reconstrução de malhas com visão esparsa. A ideia central é desacoplar tanto a entrada quanto a estrutura em partes de geometria e textura, reduzindo assim a dificuldade de treinamento para cada parte de acordo com o Princípio da Navalha de Occam. Dado que mapas normais são estritamente consistentes com a geometria e capturam com precisão as variações da superfície, utilizamos mapas normais como entrada exclusiva para o ramo de geometria, a fim de reduzir a complexidade entre a entrada e a saída da rede. Além disso, aprimoramos o algoritmo de extração de malhas para introduzir supervisão de verdade terrestre 3D. Quanto ao ramo de textura, utilizamos imagens RGB como entrada para obter a malha texturizada. No geral, o DiMeR demonstra capacidades robustas em diversas tarefas, incluindo reconstrução com visão esparsa, conversão de imagem única para 3D e texto para 3D. Numerosos experimentos mostram que o DiMeR supera significativamente métodos anteriores, alcançando uma melhoria de mais de 30% na Distância de Chamfer nos conjuntos de dados GSO e OmniObject3D.
English
With the advent of large-scale 3D datasets, feed-forward 3D generative
models, such as the Large Reconstruction Model (LRM), have gained significant
attention and achieved remarkable success. However, we observe that RGB images
often lead to conflicting training objectives and lack the necessary clarity
for geometry reconstruction. In this paper, we revisit the inductive biases
associated with mesh reconstruction and introduce DiMeR, a novel disentangled
dual-stream feed-forward model for sparse-view mesh reconstruction. The key
idea is to disentangle both the input and framework into geometry and texture
parts, thereby reducing the training difficulty for each part according to the
Principle of Occam's Razor. Given that normal maps are strictly consistent with
geometry and accurately capture surface variations, we utilize normal maps as
exclusive input for the geometry branch to reduce the complexity between the
network's input and output. Moreover, we improve the mesh extraction algorithm
to introduce 3D ground truth supervision. As for texture branch, we use RGB
images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust
capabilities across various tasks, including sparse-view reconstruction,
single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR
significantly outperforms previous methods, achieving over 30% improvement in
Chamfer Distance on the GSO and OmniObject3D dataset.