Kategorieebenen-3D-Korrespondenz im Kameraraum mittels verformbarer Objektpriors

Zusammenfassung

Das Verständnis von 3D-Objekten aus Bildern ist grundlegend für Robotik sowie AR/VR-Anwendungen. Während aktuelle Arbeiten Fortschritte bei der kategoriespezifischen Poseschätzung erzielt haben, erfassen bestehende Repräsentationen nicht die feinkörnige Semantik, die für das Nachdenken über Objektteile, Funktionen und Interaktionen erforderlich ist. In dieser Arbeit untersuchen wir die kategoriespezifische 3D-Korrespondenz im Kameraraum – also die Vorhersage von 3D-Positionen aus einem einzelnen Bild, die über Instanzen einer Kategorie hinweg konsistent bleiben – und zeigen, dass diese ohne explizite Korrespondenzüberwachung entstehen kann, indem ein gemeinsamer morphbarer Objektprior erlernt wird. Um die Forschung in diese Richtung zu ermöglichen, führen wir HouseCorr3D ein, den ersten groß angelegten Benchmark für monokulare kategoriespezifische 3D-Korrespondenz mit 178.000 Bildern aus 50 Haushaltsobjektkategorien, 280 eindeutigen Instanzen und 3D-Schlüsselpunkten, die direkt auf CAD-Modellen annotiert sind. Entscheidend ist, dass HouseCorr3D amodale Korrespondenzlabels für verdeckte Regionen sowie explizite Symmetrieannotationen bereitstellt und damit zentrale Einschränkungen bestehender Datensätze adressiert. Darüber hinaus schlagen wir Morpheus vor, eine Methode, die morphbare kategoriespezifische Formprioren erlernt, indem sie kanonische Form, Deformation und Objektpose entkoppelt. Durch diese gemeinsame kanonische Verankerung entstehen implizit semantisch bedeutsame 3D-Korrespondenzen im Kameraraum. Diese neu entstehenden 3D-Korrespondenzen setzen einen neuen Stand der Technik auf HouseCorr3D und zeigen, dass semantisches 3D-Objektverständnis ohne direkte Korrespondenzüberwachung entstehen kann. Daten und Code sind öffentlich verfügbar unter https://github.com/GenIntel/HouseCorr3D.

English

Understanding 3D objects from images is fundamental to robotics and AR/VR applications. While recent work has made progress in category-level pose estimation, current representations fail to capture the fine-grained semantics needed for reasoning about object parts, functions, and interactions. In this work, we study category-level 3D correspondence in camera space -- predicting, from a single image, 3D locations that remain consistent across instances within a category -- and show that it can emerge without explicit correspondence supervision by learning a shared morphable object prior. To enable research in this direction, we introduce HouseCorr3D, the first large-scale benchmark for monocular category-level 3D correspondence with 178k images across 50 household object categories, 280 unique instances, and 3D keypoint annotations directly on CAD models. Crucially, HouseCorr3D provides amodal correspondence labels for occluded regions and explicit symmetry annotations, addressing key limitations of existing datasets. We further propose Morpheus, a method that learns morphable category-level shape priors by disentangling canonical shape, deformation, and object pose. Through this shared canonical grounding, semantically meaningful 3D correspondences in camera space emerge implicitly. These emerging 3D correspondences set a new state of the art on HouseCorr3D, demonstrating that semantic 3D object understanding can arise without direct correspondence supervision. Data and code are publicly available at https://github.com/GenIntel/HouseCorr3D.