MARCO: Navigeren door de onzichtbare ruimte van semantische correspondentie
MARCO: Navigating the Unseen Space of Semantic Correspondence
April 20, 2026
Auteurs: Claudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth
cs.AI
Samenvatting
Recente vooruitgang in semantische correspondentie berust op dual-encoder-architecturen die DINOv2 combineren met diffusie-backbones. Hoewel accuraat, generaliseren deze modellen met miljarden parameters slecht voorbij getrainde keypoints, wat een kloof onthult tussen benchmarkprestaties en bruikbaarheid in de praktijk, waar opgevraagde punten zelden overeenkomen met die tijdens de training. Voortbouwend op DINOv2 introduceren we MARCO, een unified model voor generaliseerbare correspondentie, aangedreven door een nieuw trainingsraamwerk dat zowel fijne lokalisatie als semantische generalisatie verbetert. Door een coarse-to-fine-doelstelling die ruimtelijke precisie verfijnt te koppelen aan een zelfdistillatieraamwerk dat sparse supervisie uitbreidt voorbij geannoteerde regio's, transformeert onze aanpak een handvol keypoints naar dichte, semantisch coherente correspondenties. MARCO vestigt een nieuwe state-of-the-art op SPair-71k, AP-10K en PF-PASCAL, met verbeteringen die versterken bij fijne lokalisatiedrempels (+8,9 PCK@0.01), de sterkste generalisatie naar ongeziene keypoints (+5,1, SPair-U) en categorieën (+4,7, MP-100), terwijl het 3x kleiner en 10x sneller blijft dan diffusiegebaseerde benaderingen. Code is beschikbaar op https://github.com/visinf/MARCO.
English
Recent advances in semantic correspondence rely on dual-encoder architectures, combining DINOv2 with diffusion backbones. While accurate, these billion-parameter models generalize poorly beyond training keypoints, revealing a gap between benchmark performance and real-world usability, where queried points rarely match those seen during training. Building upon DINOv2, we introduce MARCO, a unified model for generalizable correspondence driven by a novel training framework that enhances both fine-grained localization and semantic generalization. By coupling a coarse-to-fine objective that refines spatial precision with a self-distillation framework, which expands sparse supervision beyond annotated regions, our approach transforms a handful of keypoints into dense, semantically coherent correspondences. MARCO sets a new state of the art on SPair-71k, AP-10K, and PF-PASCAL, with gains that amplify at fine-grained localization thresholds (+8.9 PCK@0.01), strongest generalization to unseen keypoints (+5.1, SPair-U) and categories (+4.7, MP-100), while remaining 3x smaller and 10x faster than diffusion-based approaches. Code is available at https://github.com/visinf/MARCO .