MARCO: Navigation im unsichtbaren Raum semantischer Korrespondenz
MARCO: Navigating the Unseen Space of Semantic Correspondence
April 20, 2026
Autoren: Claudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth
cs.AI
Zusammenfassung
Jüngste Fortschritte in der semantischen Korrespondenz beruhen auf Dual-Encoder-Architekturen, die DINOv2 mit Diffusions-Backbones kombinieren. Obwohl diese Milliard-Parameter-Modelle präzise sind, generalisieren sie schlecht über trainierte Keypoints hinaus, was eine Lücke zwischen Benchmark-Leistung und praktischer Anwendbarkeit offenbart, da abgefragte Punkte selten den während des Trainings gesehenen entsprechen. Aufbauend auf DINOv2 stellen wir MARCO vor, ein vereinheitlichtes Modell für generalisierbare Korrespondenz, das durch einen neuartigen Trainingsrahmen angetrieben wird und sowohl feinkörnige Lokalisierung als auch semantische Generalisierung verbessert. Durch die Kopplung eines Coarse-to-fine-Ziels, das die räumliche Präzision verfeinert, mit einem Self-Distillation-Framework, das die spärliche Überwachung über annotierte Regionen hinaus erweitert, verwandelt unser Ansatz eine Handvoll Keypoints in dichte, semantisch kohärente Korrespondenzen. MARCO setzt neue Maßstäbe auf SPair-71k, AP-10K und PF-PASCAL, mit Gewinnen, die bei feinkörnigen Lokalisierungsschwellen verstärkt auftreten (+8,9 PCK@0.01), der stärksten Generalisierung für ungesehene Keypoints (+5,1, SPair-U) und Kategorien (+4,7, MP-100), bei gleichzeitig 3x kleinerer Größe und 10x schnellerer Geschwindigkeit als diffusionsbasierte Ansätze. Der Code ist verfügbar unter https://github.com/visinf/MARCO.
English
Recent advances in semantic correspondence rely on dual-encoder architectures, combining DINOv2 with diffusion backbones. While accurate, these billion-parameter models generalize poorly beyond training keypoints, revealing a gap between benchmark performance and real-world usability, where queried points rarely match those seen during training. Building upon DINOv2, we introduce MARCO, a unified model for generalizable correspondence driven by a novel training framework that enhances both fine-grained localization and semantic generalization. By coupling a coarse-to-fine objective that refines spatial precision with a self-distillation framework, which expands sparse supervision beyond annotated regions, our approach transforms a handful of keypoints into dense, semantically coherent correspondences. MARCO sets a new state of the art on SPair-71k, AP-10K, and PF-PASCAL, with gains that amplify at fine-grained localization thresholds (+8.9 PCK@0.01), strongest generalization to unseen keypoints (+5.1, SPair-U) and categories (+4.7, MP-100), while remaining 3x smaller and 10x faster than diffusion-based approaches. Code is available at https://github.com/visinf/MARCO .