SOCO: Evaluación comparativa de la correspondencia semántica de objetos en modelos fundamentales de visión

Resumen

Medir la comprensión de objetos estructurados en modelos de visión base sigue siendo un desafío debido a protocolos de evaluación inconsistentes y una supervisión limitada a nivel de partes. La correspondencia semántica (SC) evalúa esta capacidad al verificar si las partes de los objetos pueden emparejarse entre instancias y categorías bajo grandes variaciones en apariencia, punto de vista y geometría. Para permitir una evaluación sistemática de SC, presentamos SOCO, un nuevo punto de referencia para la Correspondencia Semántica de Objetos que introduce una taxonomía de tipos de correspondencia y proporciona anotaciones consistentes y funcionalmente significativas de puntos clave en 100 categorías y más de 1 millón de pares de correspondencia. Además, SOCO incluye descripciones lingüísticas de los puntos clave, lo que permite evaluar modelos grandes de visión y lenguaje (LVLMs) y su comprensión detallada a nivel de partes. Experimentos exhaustivos revelan que (i) los backbones de visión base codifican una fuerte estructura semántica pero transfieren correspondencias deficientes entre categorías relacionadas y capturan solo parcialmente la posición de las partes del objeto, (ii) los LVLMs son más fuertes en la localización de partes mediante indicaciones de texto que en el emparejamiento entre imágenes con referencia visual, lo que expone una brecha entre la localización basada en lenguaje y la correspondencia visual detallada, y (iii) el rendimiento en correspondencia predice el rendimiento en tareas densas posteriores, como segmentación, seguimiento, estimación de pose 3D y detección 3D, de manera más sólida que la clasificación de ImageNet. En conjunto, estos hallazgos posicionan a SOCO como un punto de referencia para la calidad de representación estructurada a nivel de partes en modelos base de visión y multimodales.

English

Measuring structured object understanding in vision foundation models remains challenging due to inconsistent evaluation protocols and limited part-level supervision. Semantic correspondence (SC) evaluates this capability by testing whether object parts can be matched across instances and categories under large variations in appearance, viewpoint, and geometry. To enable a systematic SC evaluation, we introduce SOCO, a new benchmark for Semantic Object Correspondence that introduces a taxonomy of correspondence types and provides consistent, functionally meaningful keypoint annotations across 100 categories and over 1M correspondence pairs. In addition, SOCO includes keypoint language descriptions, enabling the evaluation of large vision-language models (LVLMs) and their fine-grained part-level understanding. Comprehensive experiments reveal that (i) vision foundation backbones encode strong semantic structure but transfer correspondences poorly across related categories and only partially capture object-part position, (ii) LVLMs are stronger at text-prompted part localization than at visual-reference cross-image matching, exposing a gap between language-grounded localization and fine-grained visual correspondence, and (iii) correspondence performance predicts performance on dense downstream tasks, including segmentation, tracking, 3D pose estimation, and 3D detection, more strongly than ImageNet classification. Together, these findings position SOCO as a benchmark for structured, part-level representation quality in vision and multimodal foundation models.