DiMeR: 分離型メッシュ再構成モデル
DiMeR: Disentangled Mesh Reconstruction Model
April 24, 2025
著者: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI
要旨
大規模な3Dデータセットの登場に伴い、Large Reconstruction Model(LRM)のようなフィードフォワード型の3D生成モデルが注目を集め、顕著な成功を収めています。しかし、RGB画像はしばしばトレーニング目標の衝突を引き起こし、ジオメトリ再構築に必要な明確さを欠いていることが観察されます。本論文では、メッシュ再構築に関連する帰納的バイアスを再検討し、疎視点メッシュ再構築のための新しい分離型デュアルストリームフィードフォワードモデルであるDiMeRを提案します。鍵となるアイデアは、入力とフレームワークの両方をジオメトリとテクスチャの部分に分離し、オッカムの剃刀の原則に従って各部分のトレーニング難易度を低減することです。法線マップはジオメトリと厳密に一致し、表面の変動を正確に捉えるため、ジオメトリブランチの入力として法線マップを排他的に使用し、ネットワークの入力と出力の間の複雑さを低減します。さらに、メッシュ抽出アルゴリズムを改善して3Dグラウンドトゥルースの監視を導入します。テクスチャブランチについては、RGB画像を入力として使用し、テクスチャ付きメッシュを取得します。全体として、DiMeRは疎視点再構築、単一画像から3Dへの変換、テキストから3Dへの変換など、さまざまなタスクにおいて堅牢な能力を発揮します。多数の実験により、DiMeRが従来の手法を大幅に上回り、GSOおよびOmniObject3DデータセットにおいてChamfer Distanceで30%以上の改善を達成することが示されています。
English
With the advent of large-scale 3D datasets, feed-forward 3D generative
models, such as the Large Reconstruction Model (LRM), have gained significant
attention and achieved remarkable success. However, we observe that RGB images
often lead to conflicting training objectives and lack the necessary clarity
for geometry reconstruction. In this paper, we revisit the inductive biases
associated with mesh reconstruction and introduce DiMeR, a novel disentangled
dual-stream feed-forward model for sparse-view mesh reconstruction. The key
idea is to disentangle both the input and framework into geometry and texture
parts, thereby reducing the training difficulty for each part according to the
Principle of Occam's Razor. Given that normal maps are strictly consistent with
geometry and accurately capture surface variations, we utilize normal maps as
exclusive input for the geometry branch to reduce the complexity between the
network's input and output. Moreover, we improve the mesh extraction algorithm
to introduce 3D ground truth supervision. As for texture branch, we use RGB
images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust
capabilities across various tasks, including sparse-view reconstruction,
single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR
significantly outperforms previous methods, achieving over 30% improvement in
Chamfer Distance on the GSO and OmniObject3D dataset.Summary
AI-Generated Summary