ChatPaper.aiChatPaper

DINeMo: Neurale maasmodellen leren zonder 3D-annotaties

DINeMo: Learning Neural Mesh Models with no 3D Annotations

March 26, 2025
Auteurs: Weijie Guo, Guofeng Zhang, Wufei Ma, Alan Yuille
cs.AI

Samenvatting

Categorieniveau 3D/6D pose-estimatie is een cruciale stap naar een uitgebreid 3D-scènebegrip, wat een breed scala aan toepassingen in robotica en embodied AI mogelijk zou maken. Recente werken onderzochten neurale mesh-modellen die een reeks 2D- en 3D-taken benaderen vanuit een analyse-door-synthese perspectief. Ondanks de aanzienlijk verbeterde robuustheid tegen gedeeltelijke occlusie en domeinverschuivingen, waren deze methoden sterk afhankelijk van 3D-annotaties voor part-contrastief leren, wat hen beperkt tot een smalle set categorieën en efficiënte schaalbaarheid belemmert. In dit werk presenteren we DINeMo, een nieuw neuraal mesh-model dat wordt getraind zonder 3D-annotaties door gebruik te maken van pseudo-correspondentie verkregen uit grote visuele foundation-modellen. We hanteren een bidirectionele methode voor het genereren van pseudo-correspondentie, die pseudo-correspondentie produceert door zowel lokale uiterlijkkenmerken als globale contextinformatie te benutten. Experimentele resultaten op auto-datasets tonen aan dat onze DINeMo eerdere zero- en few-shot 3D pose-estimatie met ruime marge overtreft, waarbij de kloof met volledig begeleide methoden met 67,3% wordt verkleind. Onze DINeMo schaalt ook effectief en efficiënt wanneer meer ongelabelde afbeeldingen tijdens de training worden opgenomen, wat de voordelen aantoont ten opzichte van begeleide leermethoden die afhankelijk zijn van 3D- annotaties. Onze projectpagina is beschikbaar op https://analysis-by-synthesis.github.io/DINeMo/.
English
Category-level 3D/6D pose estimation is a crucial step towards comprehensive 3D scene understanding, which would enable a broad range of applications in robotics and embodied AI. Recent works explored neural mesh models that approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective. Despite the largely enhanced robustness to partial occlusion and domain shifts, these methods depended heavily on 3D annotations for part-contrastive learning, which confines them to a narrow set of categories and hinders efficient scaling. In this work, we present DINeMo, a novel neural mesh model that is trained with no 3D annotations by leveraging pseudo-correspondence obtained from large visual foundation models. We adopt a bidirectional pseudo-correspondence generation method, which produce pseudo correspondence utilize both local appearance features and global context information. Experimental results on car datasets demonstrate that our DINeMo outperforms previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively and efficiently when incorporating more unlabeled images during training, which demonstrate the advantages over supervised learning methods that rely on 3D annotations. Our project page is available at https://analysis-by-synthesis.github.io/DINeMo/.

Summary

AI-Generated Summary

PDF32March 27, 2025