MARCO: Навигация в невидимом пространстве семантических соответствий

Аннотация

Последние достижения в области семантического соответствия основаны на архитектурах с двойным кодировщиком, сочетающих DINOv2 с диффузионными основами. Несмотря на точность, эти миллиардные модели плохо обобщаются за пределы обучающих ключевых точек, выявляя разрыв между производительностью на бенчмарках и практической применимостью, где запрашиваемые точки редко совпадают с теми, что встречались при обучении. На основе DINOv2 мы представляем MARCO — унифицированную модель для обобщаемого соответствия, основанную на новой системе обучения, которая улучшает как точную локализацию, так и семантическое обобщение. Благодаря сочетанию coarse-to-fine подхода, повышающего пространственную точность, с框架 само-дистилляции, расширяющей разреженную разметку за пределы аннотированных областей, наш метод преобразует несколько ключевых точек в плотные семантически согласованные соответствия. MARCO устанавливает новый state-of-the-art на SPair-71k, AP-10K и PF-PASCAL с улучшениями, которые усиливаются на порогах точной локализации (+8.9 PCK@0.01), демонстрируют наилучшее обобщение на неизвестные ключевые точки (+5.1, SPair-U) и категории (+4.7, MP-100), оставаясь при этом в 3 раза меньше и в 10 раз быстрее диффузионных подходов. Код доступен по адресу https://github.com/visinf/MARCO.

English

Recent advances in semantic correspondence rely on dual-encoder architectures, combining DINOv2 with diffusion backbones. While accurate, these billion-parameter models generalize poorly beyond training keypoints, revealing a gap between benchmark performance and real-world usability, where queried points rarely match those seen during training. Building upon DINOv2, we introduce MARCO, a unified model for generalizable correspondence driven by a novel training framework that enhances both fine-grained localization and semantic generalization. By coupling a coarse-to-fine objective that refines spatial precision with a self-distillation framework, which expands sparse supervision beyond annotated regions, our approach transforms a handful of keypoints into dense, semantically coherent correspondences. MARCO sets a new state of the art on SPair-71k, AP-10K, and PF-PASCAL, with gains that amplify at fine-grained localization thresholds (+8.9 PCK@0.01), strongest generalization to unseen keypoints (+5.1, SPair-U) and categories (+4.7, MP-100), while remaining 3x smaller and 10x faster than diffusion-based approaches. Code is available at https://github.com/visinf/MARCO .

MARCO: Навигация в невидимом пространстве семантических соответствий

MARCO: Navigating the Unseen Space of Semantic Correspondence

Аннотация

Support