Correspondance 3D au niveau de la catégorie dans l'espace caméra via des a priori d'objets morphables

Résumé

Comprendre les objets 3D à partir d'images est fondamental pour la robotique et les applications de réalité augmentée/réalité virtuelle. Bien que des travaux récents aient progressé dans l'estimation de pose au niveau catégorie, les représentations actuelles ne parviennent pas à capturer la sémantique fine nécessaire pour raisonner sur les parties, fonctions et interactions des objets. Dans ce travail, nous étudions la correspondance 3D au niveau catégorie dans l'espace caméra — prédire, à partir d'une seule image, des positions 3D qui restent cohérentes entre les instances d'une même catégorie — et montrons qu'elle peut émerger sans supervision explicite de correspondance en apprenant un a priori d'objet morphable partagé. Pour permettre la recherche dans cette direction, nous introduisons HouseCorr3D, le premier benchmark à grande échelle pour la correspondance 3D monoculaire au niveau catégorie avec 178 000 images couvrant 50 catégories d'objets ménagers, 280 instances uniques et des annotations de points clés 3D directement sur des modèles CAO. Crucialement, HouseCorr3D fournit des étiquettes de correspondance amodales pour les régions occultées et des annotations explicites de symétrie, répondant aux limitations clés des jeux de données existants. Nous proposons également Morpheus, une méthode qui apprend des a priori de forme morphables au niveau catégorie en désenchevêtrant la forme canonique, la déformation et la pose de l'objet. Grâce à cet ancrage canonique partagé, des correspondances 3D sémantiquement significatives dans l'espace caméra émergent implicitement. Ces correspondances 3D émergentes établissent un nouvel état de l'art sur HouseCorr3D, démontrant que la compréhension sémantique d'objets 3D peut apparaître sans supervision directe de correspondance. Les données et le code sont disponibles publiquement à l'adresse https://github.com/GenIntel/HouseCorr3D.

English

Understanding 3D objects from images is fundamental to robotics and AR/VR applications. While recent work has made progress in category-level pose estimation, current representations fail to capture the fine-grained semantics needed for reasoning about object parts, functions, and interactions. In this work, we study category-level 3D correspondence in camera space -- predicting, from a single image, 3D locations that remain consistent across instances within a category -- and show that it can emerge without explicit correspondence supervision by learning a shared morphable object prior. To enable research in this direction, we introduce HouseCorr3D, the first large-scale benchmark for monocular category-level 3D correspondence with 178k images across 50 household object categories, 280 unique instances, and 3D keypoint annotations directly on CAD models. Crucially, HouseCorr3D provides amodal correspondence labels for occluded regions and explicit symmetry annotations, addressing key limitations of existing datasets. We further propose Morpheus, a method that learns morphable category-level shape priors by disentangling canonical shape, deformation, and object pose. Through this shared canonical grounding, semantically meaningful 3D correspondences in camera space emerge implicitly. These emerging 3D correspondences set a new state of the art on HouseCorr3D, demonstrating that semantic 3D object understanding can arise without direct correspondence supervision. Data and code are publicly available at https://github.com/GenIntel/HouseCorr3D.