MARCO: Navegando el espacio invisible de la correspondencia semántica
MARCO: Navigating the Unseen Space of Semantic Correspondence
April 20, 2026
Autores: Claudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth
cs.AI
Resumen
Los recientes avances en correspondencia semántica se basan en arquitecturas de doble codificador, que combinan DINOv2 con _backbones_ de difusión. Aunque son precisos, estos modelos de miles de millones de parámetros se generalizan pobremente más allá de los puntos clave de entrenamiento, revelando una brecha entre el rendimiento en _benchmarks_ y la usabilidad en el mundo real, donde los puntos consultados rara vez coinciden con los vistos durante el entrenamiento. Partiendo de DINOv2, presentamos MARCO, un modelo unificado para correspondencia generalizable impulsado por un novedoso marco de entrenamiento que mejora tanto la localización de grano fino como la generalización semántica. Al combinar un objetivo de coarse-to-fine que refina la precisión espacial con un marco de auto-destilación, que expande la supervisión escasa más allá de las regiones anotadas, nuestro enfoque transforma un puñado de puntos clave en correspondencias densas y semánticamente coherentes. MARCO establece un nuevo estado del arte en SPair-71k, AP-10K y PF-PASCAL, con ganancias que se amplían en umbrales de localización de grano fino (+8.9 PCK@0.01), la generalización más sólida a puntos clave no vistos (+5.1, SPair-U) y categorías (+4.7, MP-100), mientras sigue siendo 3 veces más pequeño y 10 veces más rápido que los enfoques basados en difusión. El código está disponible en https://github.com/visinf/MARCO.
English
Recent advances in semantic correspondence rely on dual-encoder architectures, combining DINOv2 with diffusion backbones. While accurate, these billion-parameter models generalize poorly beyond training keypoints, revealing a gap between benchmark performance and real-world usability, where queried points rarely match those seen during training. Building upon DINOv2, we introduce MARCO, a unified model for generalizable correspondence driven by a novel training framework that enhances both fine-grained localization and semantic generalization. By coupling a coarse-to-fine objective that refines spatial precision with a self-distillation framework, which expands sparse supervision beyond annotated regions, our approach transforms a handful of keypoints into dense, semantically coherent correspondences. MARCO sets a new state of the art on SPair-71k, AP-10K, and PF-PASCAL, with gains that amplify at fine-grained localization thresholds (+8.9 PCK@0.01), strongest generalization to unseen keypoints (+5.1, SPair-U) and categories (+4.7, MP-100), while remaining 3x smaller and 10x faster than diffusion-based approaches. Code is available at https://github.com/visinf/MARCO .