SOCO: Het benchmarken van semantische objectcorrespondentie in fundamentele visiemodellen

Samenvatting

Het meten van gestructureerd objectbegrip in visuele funderingsmodellen blijft een uitdaging door inconsistente evaluatieprotocollen en beperkte supervisie op onderdeelniveau. Semantische correspondentie (SC) evalueert dit vermogen door te testen of objectonderdelen kunnen worden gematcht tussen instanties en categorieën, onder grote variaties in uiterlijk, gezichtspunt en geometrie. Om een systematische SC-evaluatie mogelijk te maken, introduceren we SOCO, een nieuwe benchmark voor Semantische Objectcorrespondentie die een taxonomie van correspondentie typen introduceert en consistente, functioneel betekenisvolle sleutelpuntannotaties biedt over 100 categorieën en meer dan 1M correspondentieparen. Bovendien bevat SOCO taalbeschrijvingen van sleutelpunten, wat de evaluatie van grote visie-taalmodelen (LVLM's) en hun fijnmazige begrip op onderdeelniveau mogelijk maakt. Uitgebreide experimenten tonen aan dat (i) visuele funderingsbackbones sterke semantische structuur coderen, maar correspondentie slecht overdragen over verwante categorieën en slechts gedeeltelijk de positie van objectonderdelen vastleggen, (ii) LVLM's sterker zijn in tekstgestuurde onderdeellokalisatie dan in visuele referentie-gebaseerde cross-image matching, wat een kloof blootlegt tussen taalgestuurde lokalisatie en fijnmazige visuele correspondentie, en (iii) correspondentieprestaties sterker voorspellend zijn voor prestaties op dichte downstream taken, waaronder segmentatie, tracking, 3D-poseschatting en 3D-detectie, dan ImageNet-classificatie. Gezamenlijk positioneren deze bevindingen SOCO als een benchmark voor gestructureerde, onderdeelrepresentatiekwaliteit in visuele en multimodale funderingsmodellen.

English

Measuring structured object understanding in vision foundation models remains challenging due to inconsistent evaluation protocols and limited part-level supervision. Semantic correspondence (SC) evaluates this capability by testing whether object parts can be matched across instances and categories under large variations in appearance, viewpoint, and geometry. To enable a systematic SC evaluation, we introduce SOCO, a new benchmark for Semantic Object Correspondence that introduces a taxonomy of correspondence types and provides consistent, functionally meaningful keypoint annotations across 100 categories and over 1M correspondence pairs. In addition, SOCO includes keypoint language descriptions, enabling the evaluation of large vision-language models (LVLMs) and their fine-grained part-level understanding. Comprehensive experiments reveal that (i) vision foundation backbones encode strong semantic structure but transfer correspondences poorly across related categories and only partially capture object-part position, (ii) LVLMs are stronger at text-prompted part localization than at visual-reference cross-image matching, exposing a gap between language-grounded localization and fine-grained visual correspondence, and (iii) correspondence performance predicts performance on dense downstream tasks, including segmentation, tracking, 3D pose estimation, and 3D detection, more strongly than ImageNet classification. Together, these findings position SOCO as a benchmark for structured, part-level representation quality in vision and multimodal foundation models.