MARCO: 의미적 대응의 보이지 않는 공간 탐색하기
MARCO: Navigating the Unseen Space of Semantic Correspondence
April 20, 2026
저자: Claudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth
cs.AI
초록
최근 의미론적 대응 기술의 발전은 DINOv2와 확산 백본을 결합한 듀얼 인코더 아키텍처에 주로 의존해 왔습니다. 이러한 수십억 개의 파라미터를 가진 모델들은 정확하기는 하지만, 학습된 키포인트를 벗어난 상황에서는 일반화 성능이 떨어져 벤치마크 성능과 실제 활용성 사이에 간극이 존재합니다. 실제로 질의되는 포인트들은 학습 시見過던 포인트들과 일치하는 경우가 드물기 때문입니다. DINOv2를 기반으로, 우리는 미세한 위치 추정 성능과 의미론적 일반화 능력을 모두 향상시키는 새로운 학습 프레임워크로 구동되는 일반화 가능한 대응을 위한 통합 모델인 MARCO를 소개합니다. 공간 정밀도를 개선하는 coarse-to-fine 목적 함수와, 주석이 달린 영역을 넘어 희소 감독을 확장하는 자기 지식 증류 프레임워크를 결합함으로써, 우리의 접근 방식은 소수의 키포인트를 조밀하고 의미론적으로 일관된 대응 관계로 변환합니다. MARCO는 SPair-71k, AP-10K, PF-PASCAL에서 새로운 최첨단 성능을 기록하며, 특히 미세 위치 추정 임계값에서의 향상도(+8.9 PCK@0.01), 보이지 않는 키포인트(+5.1, SPair-U) 및 카테고리(+4.7, MP-100)에 대한 가장 강력한 일반화 성능을 보여주었고, 확산 기반 접근법보다 3배 더 작고 10배 더 빠른 성능을 유지했습니다. 코드는 https://github.com/visinf/MARCO 에서 이용할 수 있습니다.
English
Recent advances in semantic correspondence rely on dual-encoder architectures, combining DINOv2 with diffusion backbones. While accurate, these billion-parameter models generalize poorly beyond training keypoints, revealing a gap between benchmark performance and real-world usability, where queried points rarely match those seen during training. Building upon DINOv2, we introduce MARCO, a unified model for generalizable correspondence driven by a novel training framework that enhances both fine-grained localization and semantic generalization. By coupling a coarse-to-fine objective that refines spatial precision with a self-distillation framework, which expands sparse supervision beyond annotated regions, our approach transforms a handful of keypoints into dense, semantically coherent correspondences. MARCO sets a new state of the art on SPair-71k, AP-10K, and PF-PASCAL, with gains that amplify at fine-grained localization thresholds (+8.9 PCK@0.01), strongest generalization to unseen keypoints (+5.1, SPair-U) and categories (+4.7, MP-100), while remaining 3x smaller and 10x faster than diffusion-based approaches. Code is available at https://github.com/visinf/MARCO .