Correspondência 3D em Nível de Categoria no Espaço da Câmera via Prioris de Objetos Deformáveis

Resumo

Compreender objetos 3D a partir de imagens é fundamental para robótica e aplicações de RV/RA. Embora trabalhos recentes tenham avançado na estimativa de pose em nível de categoria, as representações atuais não capturam a semântica de granularidade fina necessária para raciocinar sobre partes, funções e interações de objetos. Neste trabalho, estudamos a correspondência 3D em nível de categoria no espaço da câmera — prevendo, a partir de uma única imagem, localizações 3D que permanecem consistentes entre instâncias dentro de uma categoria — e mostramos que ela pode emergir sem supervisão explícita de correspondência, aprendendo um prior morfável compartilhado de objeto. Para viabilizar a pesquisa nessa direção, apresentamos o HouseCorr3D, o primeiro benchmark em larga escala para correspondência 3D monocular em nível de categoria, com 178 mil imagens abrangendo 50 categorias de objetos domésticos, 280 instâncias únicas e anotações de pontos-chave 3D diretamente em modelos CAD. Crucialmente, o HouseCorr3D fornece rótulos de correspondência amodal para regiões ocluídas e anotações explícitas de simetria, abordando limitações importantes de conjuntos de dados existentes. Propomos ainda o Morpheus, um método que aprende priors de forma morfáveis em nível de categoria, desembaraçando forma canônica, deformação e pose do objeto. Por meio desse fundamento canônico compartilhado, correspondências 3D semanticamente significativas no espaço da câmera emergem implicitamente. Essas correspondências 3D emergentes estabelecem um novo estado da arte no HouseCorr3D, demonstrando que a compreensão semântica de objetos 3D pode surgir sem supervisão direta de correspondência. Dados e código estão disponíveis publicamente em https://github.com/GenIntel/HouseCorr3D.

English

Understanding 3D objects from images is fundamental to robotics and AR/VR applications. While recent work has made progress in category-level pose estimation, current representations fail to capture the fine-grained semantics needed for reasoning about object parts, functions, and interactions. In this work, we study category-level 3D correspondence in camera space -- predicting, from a single image, 3D locations that remain consistent across instances within a category -- and show that it can emerge without explicit correspondence supervision by learning a shared morphable object prior. To enable research in this direction, we introduce HouseCorr3D, the first large-scale benchmark for monocular category-level 3D correspondence with 178k images across 50 household object categories, 280 unique instances, and 3D keypoint annotations directly on CAD models. Crucially, HouseCorr3D provides amodal correspondence labels for occluded regions and explicit symmetry annotations, addressing key limitations of existing datasets. We further propose Morpheus, a method that learns morphable category-level shape priors by disentangling canonical shape, deformation, and object pose. Through this shared canonical grounding, semantically meaningful 3D correspondences in camera space emerge implicitly. These emerging 3D correspondences set a new state of the art on HouseCorr3D, demonstrating that semantic 3D object understanding can arise without direct correspondence supervision. Data and code are publicly available at https://github.com/GenIntel/HouseCorr3D.