DiMeR: Модель для реконструкции разъединенных мешей
DiMeR: Disentangled Mesh Reconstruction Model
April 24, 2025
Авторы: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI
Аннотация
С появлением крупномасштабных 3D-наборов данных прямые 3D-генеративные модели, такие как Large Reconstruction Model (LRM), привлекли значительное внимание и достигли впечатляющих успехов. Однако мы наблюдаем, что RGB-изображения часто приводят к конфликтующим целям обучения и не обеспечивают необходимой ясности для реконструкции геометрии. В данной работе мы пересматриваем индуктивные предубеждения, связанные с реконструкцией мешей, и представляем DiMeR — новую модель с разделенным двухпоточным прямым распространением для реконструкции мешей по разреженным видам. Основная идея заключается в разделении как входных данных, так и структуры модели на геометрическую и текстурную части, что снижает сложность обучения для каждой части в соответствии с принципом бритвы Оккама. Учитывая, что карты нормалей строго согласуются с геометрией и точно отражают вариации поверхности, мы используем карты нормалей в качестве единственного входа для геометрической ветви, чтобы уменьшить сложность между входом и выходом сети. Кроме того, мы улучшаем алгоритм извлечения мешей для введения 3D-надзора на основе эталонных данных. Для текстурной ветви мы используем RGB-изображения в качестве входных данных для получения текстурированного меша. В целом, DiMeR демонстрирует устойчивые возможности в различных задачах, включая реконструкцию по разреженным видам, преобразование одного изображения в 3D и генерацию 3D по текстовому описанию. Многочисленные эксперименты показывают, что DiMeR значительно превосходит предыдущие методы, достигая улучшения на более чем 30% по метрике Chamfer Distance на наборах данных GSO и OmniObject3D.
English
With the advent of large-scale 3D datasets, feed-forward 3D generative
models, such as the Large Reconstruction Model (LRM), have gained significant
attention and achieved remarkable success. However, we observe that RGB images
often lead to conflicting training objectives and lack the necessary clarity
for geometry reconstruction. In this paper, we revisit the inductive biases
associated with mesh reconstruction and introduce DiMeR, a novel disentangled
dual-stream feed-forward model for sparse-view mesh reconstruction. The key
idea is to disentangle both the input and framework into geometry and texture
parts, thereby reducing the training difficulty for each part according to the
Principle of Occam's Razor. Given that normal maps are strictly consistent with
geometry and accurately capture surface variations, we utilize normal maps as
exclusive input for the geometry branch to reduce the complexity between the
network's input and output. Moreover, we improve the mesh extraction algorithm
to introduce 3D ground truth supervision. As for texture branch, we use RGB
images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust
capabilities across various tasks, including sparse-view reconstruction,
single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR
significantly outperforms previous methods, achieving over 30% improvement in
Chamfer Distance on the GSO and OmniObject3D dataset.Summary
AI-Generated Summary