ViewSpatial-Bench: Evaluación de la Localización Espacial Multiperspectiva en Modelos de Visión-Lenguaje
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models
May 27, 2025
Autores: Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han demostrado capacidades notables en la comprensión y el razonamiento sobre contenido visual, pero persisten desafíos significativos en tareas que requieren comprensión desde múltiples puntos de vista y razonamiento espacial. Identificamos una limitación crítica: los VLMs actuales destacan principalmente en el razonamiento espacial egocéntrico (desde la perspectiva de la cámara), pero no logran generalizar a puntos de vista allocéntricos cuando se requiere adoptar el marco de referencia espacial de otra entidad. Presentamos ViewSpatial-Bench, el primer punto de referencia integral diseñado específicamente para la evaluación del reconocimiento de localización espacial desde múltiples puntos de vista, abarcando cinco tipos de tareas distintos, respaldado por una pipeline de anotación 3D automatizada que genera etiquetas direccionales precisas. La evaluación exhaustiva de diversos VLMs en ViewSpatial-Bench revela una disparidad significativa en el rendimiento: los modelos muestran un desempeño razonable en tareas desde la perspectiva de la cámara, pero exhiben una precisión reducida al razonar desde un punto de vista humano. Al ajustar finamente los VLMs en nuestro conjunto de datos espaciales de múltiples perspectivas, logramos una mejora general del rendimiento del 46.24% en las tareas, destacando la eficacia de nuestro enfoque. Nuestro trabajo establece un punto de referencia crucial para la inteligencia espacial en sistemas de IA encarnada y proporciona evidencia empírica de que el modelado de relaciones espaciales en 3D mejora las capacidades de comprensión espacial correspondientes de los VLMs.
English
Vision-language models (VLMs) have demonstrated remarkable capabilities in
understanding and reasoning about visual content, but significant challenges
persist in tasks requiring cross-viewpoint understanding and spatial reasoning.
We identify a critical limitation: current VLMs excel primarily at egocentric
spatial reasoning (from the camera's perspective) but fail to generalize to
allocentric viewpoints when required to adopt another entity's spatial frame of
reference. We introduce ViewSpatial-Bench, the first comprehensive benchmark
designed specifically for multi-viewpoint spatial localization recognition
evaluation across five distinct task types, supported by an automated 3D
annotation pipeline that generates precise directional labels. Comprehensive
evaluation of diverse VLMs on ViewSpatial-Bench reveals a significant
performance disparity: models demonstrate reasonable performance on
camera-perspective tasks but exhibit reduced accuracy when reasoning from a
human viewpoint. By fine-tuning VLMs on our multi-perspective spatial dataset,
we achieve an overall performance improvement of 46.24% across tasks,
highlighting the efficacy of our approach. Our work establishes a crucial
benchmark for spatial intelligence in embodied AI systems and provides
empirical evidence that modeling 3D spatial relationships enhances VLMs'
corresponding spatial comprehension capabilities.Summary
AI-Generated Summary