ChatPaper.aiChatPaper

DiMeR: 分離型メッシュ再構成モデル

DiMeR: Disentangled Mesh Reconstruction Model

April 24, 2025
著者: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI

要旨

大規模な3Dデータセットの登場に伴い、Large Reconstruction Model(LRM)のようなフィードフォワード型の3D生成モデルが注目を集め、顕著な成功を収めています。しかし、RGB画像はしばしばトレーニング目標の衝突を引き起こし、ジオメトリ再構築に必要な明確さを欠いていることが観察されます。本論文では、メッシュ再構築に関連する帰納的バイアスを再検討し、疎視点メッシュ再構築のための新しい分離型デュアルストリームフィードフォワードモデルであるDiMeRを提案します。鍵となるアイデアは、入力とフレームワークの両方をジオメトリとテクスチャの部分に分離し、オッカムの剃刀の原則に従って各部分のトレーニング難易度を低減することです。法線マップはジオメトリと厳密に一致し、表面の変動を正確に捉えるため、ジオメトリブランチの入力として法線マップを排他的に使用し、ネットワークの入力と出力の間の複雑さを低減します。さらに、メッシュ抽出アルゴリズムを改善して3Dグラウンドトゥルースの監視を導入します。テクスチャブランチについては、RGB画像を入力として使用し、テクスチャ付きメッシュを取得します。全体として、DiMeRは疎視点再構築、単一画像から3Dへの変換、テキストから3Dへの変換など、さまざまなタスクにおいて堅牢な能力を発揮します。多数の実験により、DiMeRが従来の手法を大幅に上回り、GSOおよびOmniObject3DデータセットにおいてChamfer Distanceで30%以上の改善を達成することが示されています。
English
With the advent of large-scale 3D datasets, feed-forward 3D generative models, such as the Large Reconstruction Model (LRM), have gained significant attention and achieved remarkable success. However, we observe that RGB images often lead to conflicting training objectives and lack the necessary clarity for geometry reconstruction. In this paper, we revisit the inductive biases associated with mesh reconstruction and introduce DiMeR, a novel disentangled dual-stream feed-forward model for sparse-view mesh reconstruction. The key idea is to disentangle both the input and framework into geometry and texture parts, thereby reducing the training difficulty for each part according to the Principle of Occam's Razor. Given that normal maps are strictly consistent with geometry and accurately capture surface variations, we utilize normal maps as exclusive input for the geometry branch to reduce the complexity between the network's input and output. Moreover, we improve the mesh extraction algorithm to introduce 3D ground truth supervision. As for texture branch, we use RGB images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust capabilities across various tasks, including sparse-view reconstruction, single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR significantly outperforms previous methods, achieving over 30% improvement in Chamfer Distance on the GSO and OmniObject3D dataset.

Summary

AI-Generated Summary

PDF202April 25, 2025