Correspondencia 3D a nivel de categoría en el espacio de la cámara mediante priors de objetos morfables

Resumen

Comprender objetos 3D a partir de imágenes es fundamental para la robótica y las aplicaciones de realidad aumentada/realidad virtual. Aunque investigaciones recientes han avanzado en la estimación de pose a nivel de categoría, las representaciones actuales no logran capturar la semántica detallada necesaria para razonar sobre partes, funciones e interacciones de los objetos. En este trabajo, estudiamos la correspondencia 3D a nivel de categoría en el espacio de la cámara —prediciendo, a partir de una sola imagen, ubicaciones 3D consistentes entre instancias dentro de una categoría— y demostramos que esta puede surgir sin supervisión explícita de correspondencia al aprender un prior morfable de objeto compartido. Para impulsar la investigación en esta dirección, presentamos HouseCorr3D, el primer punto de referencia a gran escala para la correspondencia 3D monoccular a nivel de categoría, con 178k imágenes de 50 categorías de objetos domésticos, 280 instancias únicas y anotaciones de puntos clave 3D directamente sobre modelos CAD. Un aspecto crucial es que HouseCorr3D proporciona etiquetas de correspondencia amodal para regiones ocluidas y anotaciones explícitas de simetría, abordando limitaciones clave de los conjuntos de datos existentes. Además, proponemos Morpheus, un método que aprende priores de forma de categoría deformables al desenredar la forma canónica, la deformación y la pose del objeto. A través de este anclaje canónico compartido, las correspondencias 3D semánticamente significativas en el espacio de la cámara emergen implícitamente. Estas correspondencias 3D emergentes establecen un nuevo estado del arte en HouseCorr3D, demostrando que la comprensión semántica de objetos 3D puede surgir sin supervisión directa de correspondencia. Los datos y el código están disponibles públicamente en https://github.com/GenIntel/HouseCorr3D.

English

Understanding 3D objects from images is fundamental to robotics and AR/VR applications. While recent work has made progress in category-level pose estimation, current representations fail to capture the fine-grained semantics needed for reasoning about object parts, functions, and interactions. In this work, we study category-level 3D correspondence in camera space -- predicting, from a single image, 3D locations that remain consistent across instances within a category -- and show that it can emerge without explicit correspondence supervision by learning a shared morphable object prior. To enable research in this direction, we introduce HouseCorr3D, the first large-scale benchmark for monocular category-level 3D correspondence with 178k images across 50 household object categories, 280 unique instances, and 3D keypoint annotations directly on CAD models. Crucially, HouseCorr3D provides amodal correspondence labels for occluded regions and explicit symmetry annotations, addressing key limitations of existing datasets. We further propose Morpheus, a method that learns morphable category-level shape priors by disentangling canonical shape, deformation, and object pose. Through this shared canonical grounding, semantically meaningful 3D correspondences in camera space emerge implicitly. These emerging 3D correspondences set a new state of the art on HouseCorr3D, demonstrating that semantic 3D object understanding can arise without direct correspondence supervision. Data and code are publicly available at https://github.com/GenIntel/HouseCorr3D.