ChatPaper.aiChatPaper

DiMeR: Modelo de Reconstrução de Malha Desembaraçada

DiMeR: Disentangled Mesh Reconstruction Model

April 24, 2025
Autores: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI

Resumo

Com o advento de grandes conjuntos de dados 3D, modelos generativos 3D de propagação direta, como o Large Reconstruction Model (LRM), ganharam atenção significativa e alcançaram sucesso notável. No entanto, observamos que imagens RGB frequentemente levam a objetivos de treinamento conflitantes e carecem da clareza necessária para a reconstrução geométrica. Neste artigo, revisitamos os vieses indutivos associados à reconstrução de malhas e introduzimos o DiMeR, um novo modelo de propagação direta de fluxo duplo desacoplado para reconstrução de malhas com visão esparsa. A ideia central é desacoplar tanto a entrada quanto a estrutura em partes de geometria e textura, reduzindo assim a dificuldade de treinamento para cada parte de acordo com o Princípio da Navalha de Occam. Dado que mapas normais são estritamente consistentes com a geometria e capturam com precisão as variações da superfície, utilizamos mapas normais como entrada exclusiva para o ramo de geometria, a fim de reduzir a complexidade entre a entrada e a saída da rede. Além disso, aprimoramos o algoritmo de extração de malhas para introduzir supervisão de verdade terrestre 3D. Quanto ao ramo de textura, utilizamos imagens RGB como entrada para obter a malha texturizada. No geral, o DiMeR demonstra capacidades robustas em diversas tarefas, incluindo reconstrução com visão esparsa, conversão de imagem única para 3D e texto para 3D. Numerosos experimentos mostram que o DiMeR supera significativamente métodos anteriores, alcançando uma melhoria de mais de 30% na Distância de Chamfer nos conjuntos de dados GSO e OmniObject3D.
English
With the advent of large-scale 3D datasets, feed-forward 3D generative models, such as the Large Reconstruction Model (LRM), have gained significant attention and achieved remarkable success. However, we observe that RGB images often lead to conflicting training objectives and lack the necessary clarity for geometry reconstruction. In this paper, we revisit the inductive biases associated with mesh reconstruction and introduce DiMeR, a novel disentangled dual-stream feed-forward model for sparse-view mesh reconstruction. The key idea is to disentangle both the input and framework into geometry and texture parts, thereby reducing the training difficulty for each part according to the Principle of Occam's Razor. Given that normal maps are strictly consistent with geometry and accurately capture surface variations, we utilize normal maps as exclusive input for the geometry branch to reduce the complexity between the network's input and output. Moreover, we improve the mesh extraction algorithm to introduce 3D ground truth supervision. As for texture branch, we use RGB images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust capabilities across various tasks, including sparse-view reconstruction, single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR significantly outperforms previous methods, achieving over 30% improvement in Chamfer Distance on the GSO and OmniObject3D dataset.
PDF242April 25, 2025