Geometrie zählt: 3D-Grundlagenprioren für das Lernen semantischer Korrespondenz

Zusammenfassung

Foundation-Features aus selbstüberwachten Bildverarbeitungsmodellen und Text-zu-Bild-Diffusionsmodellen haben sich für die Schätzung semantischer Korrespondenz als effektiv erwiesen. Da diese Merkmale jedoch hauptsächlich aus 2D-Bildzielen gelernt werden, fehlt ihnen ein explizites 3D-Bewusstsein, und sie verwechseln häufig symmetrische Objektseiten, wiederholte Teile und visuell ähnliche Strukturen, die in 3D deutlich unterscheidbar sind. Wir stellen ein 3D-bewusstes Nachtraining-Framework vor, das über verfügbare 2D-Foundation-Features hinausgeht, indem es Priors aus 3D-Foundation-Modellen einbezieht. Für ein gegebenes Bild verwendet unsere Methode SAM3D, um die Objektgeometrie und -pose zu schätzen, und verfeinert die Pose durch eine Render-and-Compare-Optimierung. Anschließend rendern wir PartField-Deskriptoren aus der rekonstruierten Geometrie basierend auf der geschätzten Objektpose in die Bildebene. Die resultierenden geometriebewussten Merkmalskarten ergänzen DINO- und Stable-Diffusion-Features, während geodätische Distanzen auf den rekonstruierten Formen eine zuverlässige Filterung von Kandidatenkorrespondenzen ermöglichen. Wir nutzen die gefilterten Übereinstimmungen als Überwachung, um einen leichten Adapter auf DINO und Stable Diffusion für die semantische Korrespondenz zu trainieren. Im Gegensatz zu früheren Nachtraining-Ansätzen, die Posenannotationen erfordern und auf grobe sphärische Geometrie angewiesen sind, erhält unsere Methode automatisch instanzspezifische 3D-Struktur und nutzt diese zur Steuerung des Korrespondenzlernens. Experimente zeigen, dass unser Ansatz die semantische Korrespondenz im Vergleich zu früheren Methoden verbessert und gleichzeitig den manuellen geometrischen Aufwand reduziert. Code und Modell sind unter https://github.com/GenIntel/3D-SC verfügbar.

English

Foundation features from self-supervised vision models and text-to-image diffusion models have proven effective for semantic correspondence estimation. However, because these features are learned primarily from 2D image objectives, they lack explicit 3D awareness and often confuse symmetric object sides, repeated parts, and visually similar structures that are distinct in 3D. We introduce a 3D-aware post-training framework that goes beyond available 2D foundation features by incorporating priors from 3D foundation models. Given an image, our method uses SAM3D to estimate object geometry and pose, and refines the pose through render-and-compare optimization. Subsequently, we render PartField descriptors from the reconstructed geometry into the image plane based on the estimated object pose. The resulting geometry-aware feature maps complement DINO and Stable Diffusion features, while geodesic distances on the reconstructed shapes enable reliable filtering of candidate correspondences. We use the filtered matches as supervision to train a lightweight adapter on top of DINO and Stable Diffusion for semantic correspondence. In contrast to prior post-training approaches that require pose annotations and rely on coarse spherical geometry, our method automatically obtains instance-specific 3D structure and uses it to guide correspondence learning. Experiments show that our approach improves semantic correspondence over the prior methods while reducing manual geometric supervision. Code and model can be found at https:/github.com/GenIntel/3D-SC.