MARCO : Naviguer dans l'espace invisible de la correspondance sémantique
MARCO: Navigating the Unseen Space of Semantic Correspondence
April 20, 2026
Auteurs: Claudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth
cs.AI
Résumé
Les récentes avancées en correspondance sémantique reposent sur des architectures à double encodeur, combinant DINOv2 avec des backbones de diffusion. Bien que précis, ces modèles de milliards de paramètres généralisent mal au-delà des points-clés d'entraînement, révélant un écart entre les performances sur les benchmarks et l'utilité pratique, où les points interrogés correspondent rarement à ceux vus pendant l'apprentissage. En nous appuyant sur DINOv2, nous présentons MARCO, un modèle unifié pour la correspondance généralisable, piloté par un nouveau cadre d'entraînement qui améliore à la fois la localisation fine et la généralisation sémantique. En couplant un objectif grossier-à-fin qui affine la précision spatiale avec un cadre d'autodistillation, qui étend la supervision au-delà des régions annotées, notre approche transforme une poignée de points-clés en correspondances denses et sémantiquement cohérentes. MARCO établit un nouvel état de l'art sur SPair-71k, AP-10K et PF-PASCAL, avec des gains qui s'amplifient aux seuils de localisation fine (+8,9 PCK@0,01), une généralisation plus robuste aux points-clés non vus (+5,1, SPair-U) et aux catégories non vues (+4,7, MP-100), tout en restant 3 fois plus petit et 10 fois plus rapide que les approches basées sur la diffusion. Le code est disponible à l'adresse https://github.com/visinf/MARCO.
English
Recent advances in semantic correspondence rely on dual-encoder architectures, combining DINOv2 with diffusion backbones. While accurate, these billion-parameter models generalize poorly beyond training keypoints, revealing a gap between benchmark performance and real-world usability, where queried points rarely match those seen during training. Building upon DINOv2, we introduce MARCO, a unified model for generalizable correspondence driven by a novel training framework that enhances both fine-grained localization and semantic generalization. By coupling a coarse-to-fine objective that refines spatial precision with a self-distillation framework, which expands sparse supervision beyond annotated regions, our approach transforms a handful of keypoints into dense, semantically coherent correspondences. MARCO sets a new state of the art on SPair-71k, AP-10K, and PF-PASCAL, with gains that amplify at fine-grained localization thresholds (+8.9 PCK@0.01), strongest generalization to unseen keypoints (+5.1, SPair-U) and categories (+4.7, MP-100), while remaining 3x smaller and 10x faster than diffusion-based approaches. Code is available at https://github.com/visinf/MARCO .