ChatPaper.aiChatPaper

DINeMo : Apprentissage de modèles de maillage neuronaux sans annotations 3D

DINeMo: Learning Neural Mesh Models with no 3D Annotations

March 26, 2025
Auteurs: Weijie Guo, Guofeng Zhang, Wufei Ma, Alan Yuille
cs.AI

Résumé

L'estimation de pose 3D/6D au niveau catégoriel est une étape cruciale vers une compréhension complète des scènes 3D, ce qui permettrait une large gamme d'applications en robotique et en IA incarnée. Les travaux récents ont exploré des modèles de maillage neuronaux qui abordent une variété de tâches 2D et 3D selon une perspective d'analyse par synthèse. Malgré une robustesse largement améliorée face aux occlusions partielles et aux changements de domaine, ces méthodes dépendaient fortement d'annotations 3D pour l'apprentissage partiel contrastif, ce qui les limite à un ensemble restreint de catégories et entrave une mise à l'échelle efficace. Dans ce travail, nous présentons DINeMo, un nouveau modèle de maillage neuronal entraîné sans annotations 3D en exploitant des pseudo-correspondances obtenues à partir de grands modèles visuels de base. Nous adoptons une méthode de génération de pseudo-correspondances bidirectionnelle, qui produit des pseudo-correspondances en utilisant à la fois des caractéristiques d'apparence locale et des informations contextuelles globales. Les résultats expérimentaux sur des ensembles de données de voitures montrent que notre DINeMo surpasse largement les méthodes précédentes d'estimation de pose 3D en zéro-shot et few-shot, réduisant l'écart avec les méthodes entièrement supervisées de 67,3 %. Notre DINeMo se met également à l'échelle de manière efficace et efficiente en incorporant davantage d'images non labellées pendant l'entraînement, ce qui démontre les avantages par rapport aux méthodes d'apprentissage supervisé qui reposent sur des annotations 3D. Notre page de projet est disponible à l'adresse suivante : https://analysis-by-synthesis.github.io/DINeMo/.
English
Category-level 3D/6D pose estimation is a crucial step towards comprehensive 3D scene understanding, which would enable a broad range of applications in robotics and embodied AI. Recent works explored neural mesh models that approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective. Despite the largely enhanced robustness to partial occlusion and domain shifts, these methods depended heavily on 3D annotations for part-contrastive learning, which confines them to a narrow set of categories and hinders efficient scaling. In this work, we present DINeMo, a novel neural mesh model that is trained with no 3D annotations by leveraging pseudo-correspondence obtained from large visual foundation models. We adopt a bidirectional pseudo-correspondence generation method, which produce pseudo correspondence utilize both local appearance features and global context information. Experimental results on car datasets demonstrate that our DINeMo outperforms previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively and efficiently when incorporating more unlabeled images during training, which demonstrate the advantages over supervised learning methods that rely on 3D annotations. Our project page is available at https://analysis-by-synthesis.github.io/DINeMo/.

Summary

AI-Generated Summary

PDF32March 27, 2025