MARCO: Navigare nello Spazio Invisibile della Corrispondenza Semantica

Abstract

I recenti progressi nella corrispondenza semantica si basano su architetture dual-encoder, che combinano DINOv2 con backbone di diffusione. Sebbene accurati, questi modelli da miliardi di parametri generalizzano scarsamente al di là dei keypoint di addestramento, rivelando un divario tra le prestazioni sui benchmark e l'usabilità nel mondo reale, dove i punti interrogati raramente corrispondono a quelli visti durante il training. Basandoci su DINOv2, introduciamo MARCO, un modello unificato per corrispondenza generalizzabile guidato da un nuovo framework di addestramento che migliora sia la localizzazione fine-grain che la generalizzazione semantica. Accoppiando un obiettivo coarse-to-fine che affina la precisione spaziale con un framework di auto-distillazione, che espande la supervisione sparsa oltre le regioni annotate, il nostro approccio trasforma una manciata di keypoint in corrispondenze dense e semanticamente coerenti. MARCO stabilisce un nuovo stato dell'arte su SPair-71k, AP-10K e PF-PASCAL, con guadagni che si amplificano alle soglie di localizzazione fine-grain (+8.9 PCK@0.01), la più forte generalizzazione a keypoint non visti (+5.1, SPair-U) e categorie (+4.7, MP-100), rimanendo al contempo 3 volte più piccolo e 10 volte più veloce degli approcci basati su diffusione. Il codice è disponibile all'indirizzo https://github.com/visinf/MARCO.

English

Recent advances in semantic correspondence rely on dual-encoder architectures, combining DINOv2 with diffusion backbones. While accurate, these billion-parameter models generalize poorly beyond training keypoints, revealing a gap between benchmark performance and real-world usability, where queried points rarely match those seen during training. Building upon DINOv2, we introduce MARCO, a unified model for generalizable correspondence driven by a novel training framework that enhances both fine-grained localization and semantic generalization. By coupling a coarse-to-fine objective that refines spatial precision with a self-distillation framework, which expands sparse supervision beyond annotated regions, our approach transforms a handful of keypoints into dense, semantically coherent correspondences. MARCO sets a new state of the art on SPair-71k, AP-10K, and PF-PASCAL, with gains that amplify at fine-grained localization thresholds (+8.9 PCK@0.01), strongest generalization to unseen keypoints (+5.1, SPair-U) and categories (+4.7, MP-100), while remaining 3x smaller and 10x faster than diffusion-based approaches. Code is available at https://github.com/visinf/MARCO .

MARCO: Navigare nello Spazio Invisibile della Corrispondenza Semantica

MARCO: Navigating the Unseen Space of Semantic Correspondence

Abstract

Support