DINeMo: 3Dアノテーションなしでニューラルメッシュモデルを学習する
DINeMo: Learning Neural Mesh Models with no 3D Annotations
March 26, 2025
著者: Weijie Guo, Guofeng Zhang, Wufei Ma, Alan Yuille
cs.AI
要旨
カテゴリレベルの3D/6D姿勢推定は、包括的な3Dシーン理解に向けた重要なステップであり、ロボティクスやエンボディードAIにおける幅広いアプリケーションを可能にする。最近の研究では、分析-by-合成の観点から2Dおよび3Dタスクにアプローチするニューラルメッシュモデルが探求されている。部分的なオクルージョンやドメインシフトに対する堅牢性が大幅に向上しているにもかかわらず、これらの手法は部分対比学習のための3Dアノテーションに大きく依存しており、限られたカテゴリに制限され、効率的なスケーリングを妨げている。本研究では、大規模な視覚基盤モデルから得られた疑似対応を活用して、3Dアノテーションなしで学習する新しいニューラルメッシュモデルであるDINeMoを提案する。我々は、局所的な外観特徴とグローバルなコンテキスト情報の両方を利用して疑似対応を生成する双方向疑似対応生成手法を採用している。車のデータセットにおける実験結果は、我々のDINeMoが従来のゼロショットおよび少数ショットの3D姿勢推定を大幅に上回り、完全教師あり手法とのギャップを67.3%縮めることを示している。また、DINeMoはトレーニング中により多くのラベルなし画像を取り入れることで効果的かつ効率的にスケールし、3Dアノテーションに依存する教師あり学習手法に対する利点を実証している。プロジェクトページはhttps://analysis-by-synthesis.github.io/DINeMo/で公開されている。
English
Category-level 3D/6D pose estimation is a crucial step towards comprehensive
3D scene understanding, which would enable a broad range of applications in
robotics and embodied AI. Recent works explored neural mesh models that
approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective.
Despite the largely enhanced robustness to partial occlusion and domain shifts,
these methods depended heavily on 3D annotations for part-contrastive learning,
which confines them to a narrow set of categories and hinders efficient
scaling. In this work, we present DINeMo, a novel neural mesh model that is
trained with no 3D annotations by leveraging pseudo-correspondence obtained
from large visual foundation models. We adopt a bidirectional
pseudo-correspondence generation method, which produce pseudo correspondence
utilize both local appearance features and global context information.
Experimental results on car datasets demonstrate that our DINeMo outperforms
previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the
gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively
and efficiently when incorporating more unlabeled images during training, which
demonstrate the advantages over supervised learning methods that rely on 3D
annotations. Our project page is available at
https://analysis-by-synthesis.github.io/DINeMo/.