DiMeR: 분리된 메쉬 재구성 모델
DiMeR: Disentangled Mesh Reconstruction Model
April 24, 2025
저자: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI
초록
대규모 3D 데이터셋의 등장과 함께, Large Reconstruction Model(LRM)과 같은 피드포워드(feed-forward) 3D 생성 모델이 상당한 주목을 받으며 놀라운 성과를 거두고 있습니다. 그러나 우리는 RGB 이미지가 종종 상충되는 학습 목표를 초래하고, 기하학적 재구성을 위한 필요한 명확성을 제공하지 못한다는 점을 관찰했습니다. 본 논문에서는 메쉬 재구성과 관련된 귀납적 편향(inductive bias)을 재검토하고, 희소 뷰(sparse-view) 메쉬 재구성을 위한 새로운 분리형 이중 스트림(disentangled dual-stream) 피드포워드 모델인 DiMeR을 소개합니다. 핵심 아이디어는 입력과 프레임워크를 기하학적 부분과 텍스처 부분으로 분리하여, 오컴의 면도날 원리(Principle of Occam's Razor)에 따라 각 부분의 학습 난이도를 줄이는 것입니다. 노멀 맵(normal map)이 기하학적 구조와 엄격하게 일치하며 표면 변화를 정확하게 포착한다는 점을 고려하여, 우리는 기하학적 브랜치(geometry branch)의 입력으로 노멀 맵만을 사용하여 네트워크의 입력과 출력 간의 복잡성을 줄였습니다. 또한, 메쉬 추출 알고리즘을 개선하여 3D 실측값(ground truth) 지도를 도입했습니다. 텍스처 브랜치(texture branch)의 경우, RGB 이미지를 입력으로 사용하여 텍스처가 적용된 메쉬를 얻습니다. 전반적으로 DiMeR은 희소 뷰 재구성, 단일 이미지에서 3D로의 변환, 텍스트에서 3D로의 변환 등 다양한 작업에서 강력한 성능을 보여줍니다. 수많은 실험을 통해 DiMeR이 기존 방법들을 크게 능가하며, GSO 및 OmniObject3D 데이터셋에서 Chamfer Distance 기준 30% 이상의 성능 향상을 달성했음을 확인했습니다.
English
With the advent of large-scale 3D datasets, feed-forward 3D generative
models, such as the Large Reconstruction Model (LRM), have gained significant
attention and achieved remarkable success. However, we observe that RGB images
often lead to conflicting training objectives and lack the necessary clarity
for geometry reconstruction. In this paper, we revisit the inductive biases
associated with mesh reconstruction and introduce DiMeR, a novel disentangled
dual-stream feed-forward model for sparse-view mesh reconstruction. The key
idea is to disentangle both the input and framework into geometry and texture
parts, thereby reducing the training difficulty for each part according to the
Principle of Occam's Razor. Given that normal maps are strictly consistent with
geometry and accurately capture surface variations, we utilize normal maps as
exclusive input for the geometry branch to reduce the complexity between the
network's input and output. Moreover, we improve the mesh extraction algorithm
to introduce 3D ground truth supervision. As for texture branch, we use RGB
images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust
capabilities across various tasks, including sparse-view reconstruction,
single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR
significantly outperforms previous methods, achieving over 30% improvement in
Chamfer Distance on the GSO and OmniObject3D dataset.Summary
AI-Generated Summary