DiMeR: Modello di Ricostruzione Mesh Disaccoppiata
DiMeR: Disentangled Mesh Reconstruction Model
April 24, 2025
Autori: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI
Abstract
Con l'avvento di dataset 3D su larga scala, i modelli generativi 3D feed-forward, come il Large Reconstruction Model (LRM), hanno attirato notevole attenzione e ottenuto successi significativi. Tuttavia, osserviamo che le immagini RGB spesso portano a obiettivi di addestramento conflittuali e mancano della chiarezza necessaria per la ricostruzione della geometria. In questo articolo, esaminiamo nuovamente i bias induttivi associati alla ricostruzione di mesh e introduciamo DiMeR, un nuovo modello feed-forward a doppio flusso disaccoppiato per la ricostruzione di mesh da viste sparse. L'idea chiave è disaccoppiare sia l'input che il framework in parti di geometria e texture, riducendo così la difficoltà di addestramento per ciascuna parte secondo il principio del Rasoio di Occam. Dato che le mappe normali sono strettamente coerenti con la geometria e catturano accuratamente le variazioni superficiali, utilizziamo le mappe normali come input esclusivo per il ramo di geometria per ridurre la complessità tra l'input e l'output della rete. Inoltre, miglioriamo l'algoritmo di estrazione della mesh per introdurre una supervisione ground truth 3D. Per quanto riguarda il ramo di texture, utilizziamo immagini RGB come input per ottenere la mesh texturizzata. Nel complesso, DiMeR dimostra capacità robuste in varie attività, tra cui la ricostruzione da viste sparse, la generazione 3D da singola immagine e la generazione 3D da testo. Numerosi esperimenti mostrano che DiMeR supera significativamente i metodi precedenti, ottenendo un miglioramento di oltre il 30% nella distanza di Chamfer sui dataset GSO e OmniObject3D.
English
With the advent of large-scale 3D datasets, feed-forward 3D generative
models, such as the Large Reconstruction Model (LRM), have gained significant
attention and achieved remarkable success. However, we observe that RGB images
often lead to conflicting training objectives and lack the necessary clarity
for geometry reconstruction. In this paper, we revisit the inductive biases
associated with mesh reconstruction and introduce DiMeR, a novel disentangled
dual-stream feed-forward model for sparse-view mesh reconstruction. The key
idea is to disentangle both the input and framework into geometry and texture
parts, thereby reducing the training difficulty for each part according to the
Principle of Occam's Razor. Given that normal maps are strictly consistent with
geometry and accurately capture surface variations, we utilize normal maps as
exclusive input for the geometry branch to reduce the complexity between the
network's input and output. Moreover, we improve the mesh extraction algorithm
to introduce 3D ground truth supervision. As for texture branch, we use RGB
images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust
capabilities across various tasks, including sparse-view reconstruction,
single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR
significantly outperforms previous methods, achieving over 30% improvement in
Chamfer Distance on the GSO and OmniObject3D dataset.Summary
AI-Generated Summary