MARCO: Navegando o Espaço Invisível da Correspondência Semântica
MARCO: Navigating the Unseen Space of Semantic Correspondence
April 20, 2026
Autores: Claudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth
cs.AI
Resumo
Os recentes avanços na correspondência semântica baseiam-se em arquiteturas de codificador duplo, combinando DINOv2 com backbones de difusão. Embora precisos, esses modelos com milhares de milhões de parâmetros generalizam mal para além dos pontos-chave de treino, revelando uma lacuna entre o desempenho em benchmarks e a usabilidade no mundo real, onde os pontos consultados raramente coincidem com os observados durante o treino. Com base no DINOv2, introduzimos o MARCO, um modelo unificado para correspondência generalizável, impulsionado por uma nova estrutura de treino que melhora tanto a localização de granularidade fina como a generalização semântica. Ao acoplar um objetivo de coarse-to-fine que refina a precisão espacial a uma estrutura de auto-distilação, que expande a supervisão esparsa para além das regiões anotadas, a nossa abordagem transforma um punhado de pontos-chave em correspondências densas e semanticamente coerentes. O MARCO estabelece um novo estado da arte no SPair-71k, AP-10K e PF-PASCAL, com ganhos que se ampliam em limiares de localização de granularidade fina (+8,9 PCK@0.01), a mais forte generalização para pontos-chave não vistos (+5,1, SPair-U) e categorias (+4,7, MP-100), mantendo-se 3x menor e 10x mais rápido do que as abordagens baseadas em difusão. O código está disponível em https://github.com/visinf/MARCO.
English
Recent advances in semantic correspondence rely on dual-encoder architectures, combining DINOv2 with diffusion backbones. While accurate, these billion-parameter models generalize poorly beyond training keypoints, revealing a gap between benchmark performance and real-world usability, where queried points rarely match those seen during training. Building upon DINOv2, we introduce MARCO, a unified model for generalizable correspondence driven by a novel training framework that enhances both fine-grained localization and semantic generalization. By coupling a coarse-to-fine objective that refines spatial precision with a self-distillation framework, which expands sparse supervision beyond annotated regions, our approach transforms a handful of keypoints into dense, semantically coherent correspondences. MARCO sets a new state of the art on SPair-71k, AP-10K, and PF-PASCAL, with gains that amplify at fine-grained localization thresholds (+8.9 PCK@0.01), strongest generalization to unseen keypoints (+5.1, SPair-U) and categories (+4.7, MP-100), while remaining 3x smaller and 10x faster than diffusion-based approaches. Code is available at https://github.com/visinf/MARCO .