SOCO : Benchmarking de la correspondance sémantique d'objets dans les modèles de base en vision

Résumé

Mesurer la compréhension structurée des objets dans les modèles fondamentaux de vision reste difficile en raison de protocoles d'évaluation incohérents et d'un nombre limité de supervision au niveau des parties. La correspondance sémantique (SC) évalue cette capacité en testant si les parties d'objets peuvent être mises en correspondance entre instances et catégories malgré de grandes variations d'apparence, de point de vue et de géométrie. Pour permettre une évaluation systématique de la SC, nous introduisons SOCO, un nouveau référentiel de Correspondance Sémantique d'Objets qui propose une taxonomie des types de correspondance et fournit des annotations cohérentes et fonctionnellement significatives de points clés pour 100 catégories et plus d'un million de paires de correspondance. De plus, SOCO inclut des descriptions linguistiques des points clés, permettant l'évaluation des grands modèles vision-langage (LVLM) et de leur compréhension fine des parties. Des expériences approfondies révèlent que (i) les architectures de base des modèles fondamentaux de vision encodent une forte structure sémantique mais transfèrent mal les correspondances entre catégories apparentées et ne capturent que partiellement la position des parties d'objets, (ii) les LVLM sont plus performants pour la localisation de parties guidée par du texte que pour la mise en correspondance inter-images par référence visuelle, ce qui expose un fossé entre la localisation ancrée dans le langage et la correspondance visuelle fine, et (iii) la performance de correspondance prédit plus fortement la performance dans des tâches denses en aval, incluant la segmentation, le suivi, l'estimation de pose 3D et la détection 3D, que la classification ImageNet. Ensemble, ces résultats positionnent SOCO comme un référentiel pour la qualité des représentations structurées au niveau des parties dans les modèles fondamentaux de vision et multimodaux.

English

Measuring structured object understanding in vision foundation models remains challenging due to inconsistent evaluation protocols and limited part-level supervision. Semantic correspondence (SC) evaluates this capability by testing whether object parts can be matched across instances and categories under large variations in appearance, viewpoint, and geometry. To enable a systematic SC evaluation, we introduce SOCO, a new benchmark for Semantic Object Correspondence that introduces a taxonomy of correspondence types and provides consistent, functionally meaningful keypoint annotations across 100 categories and over 1M correspondence pairs. In addition, SOCO includes keypoint language descriptions, enabling the evaluation of large vision-language models (LVLMs) and their fine-grained part-level understanding. Comprehensive experiments reveal that (i) vision foundation backbones encode strong semantic structure but transfer correspondences poorly across related categories and only partially capture object-part position, (ii) LVLMs are stronger at text-prompted part localization than at visual-reference cross-image matching, exposing a gap between language-grounded localization and fine-grained visual correspondence, and (iii) correspondence performance predicts performance on dense downstream tasks, including segmentation, tracking, 3D pose estimation, and 3D detection, more strongly than ImageNet classification. Together, these findings position SOCO as a benchmark for structured, part-level representation quality in vision and multimodal foundation models.