DINeMo: 3D 주석 없이 신경망 메쉬 모델 학습하기
DINeMo: Learning Neural Mesh Models with no 3D Annotations
March 26, 2025
저자: Weijie Guo, Guofeng Zhang, Wufei Ma, Alan Yuille
cs.AI
초록
카테고리 수준의 3D/6D 포즈 추정은 포괄적인 3D 장면 이해를 위한 중요한 단계로, 로보틱스와 구현된 AI 분야에서 다양한 응용을 가능하게 할 것입니다. 최근 연구들은 신경망 메시 모델을 탐구하며, 합성에 의한 분석 관점에서 다양한 2D 및 3D 작업에 접근했습니다. 부분적 폐색과 도메인 변화에 대한 강건성이 크게 향상되었음에도 불구하고, 이러한 방법들은 부분 대조 학습을 위한 3D 주석에 크게 의존하여, 제한된 범주의 카테고리에 국한되고 효율적인 확장을 방해했습니다. 본 연구에서는 대규모 시각적 기초 모델에서 얻은 가상 대응점을 활용하여 3D 주석 없이 학습된 새로운 신경망 메시 모델인 DINeMo를 제시합니다. 우리는 지역적 외형 특징과 전역적 문맥 정보를 모두 활용하여 가상 대응점을 생성하는 양방향 가상 대응점 생성 방법을 채택했습니다. 자동차 데이터셋에 대한 실험 결과는 우리의 DINeMo가 이전의 제로샷 및 퓨샷 3D 포즈 추정을 크게 능가하며, 완전 지도 학습 방법과의 격차를 67.3%로 좁혔음을 보여줍니다. 또한, DINeMo는 학습 중에 더 많은 라벨 없는 이미지를 통합할 때 효과적이고 효율적으로 확장되며, 이는 3D 주석에 의존하는 지도 학습 방법에 비해 장점을 보여줍니다. 우리의 프로젝트 페이지는 https://analysis-by-synthesis.github.io/DINeMo/에서 확인할 수 있습니다.
English
Category-level 3D/6D pose estimation is a crucial step towards comprehensive
3D scene understanding, which would enable a broad range of applications in
robotics and embodied AI. Recent works explored neural mesh models that
approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective.
Despite the largely enhanced robustness to partial occlusion and domain shifts,
these methods depended heavily on 3D annotations for part-contrastive learning,
which confines them to a narrow set of categories and hinders efficient
scaling. In this work, we present DINeMo, a novel neural mesh model that is
trained with no 3D annotations by leveraging pseudo-correspondence obtained
from large visual foundation models. We adopt a bidirectional
pseudo-correspondence generation method, which produce pseudo correspondence
utilize both local appearance features and global context information.
Experimental results on car datasets demonstrate that our DINeMo outperforms
previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the
gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively
and efficiently when incorporating more unlabeled images during training, which
demonstrate the advantages over supervised learning methods that rely on 3D
annotations. Our project page is available at
https://analysis-by-synthesis.github.io/DINeMo/.Summary
AI-Generated Summary