ChatPaper.aiChatPaper

ViewSpatial-Bench : Évaluation de la localisation spatiale multi-perspective dans les modèles vision-langage

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

May 27, 2025
Auteurs: Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang
cs.AI

Résumé

Les modèles vision-langage (VLMs) ont démontré des capacités remarquables dans la compréhension et le raisonnement sur le contenu visuel, mais des défis importants persistent dans les tâches nécessitant une compréhension multi-points de vue et un raisonnement spatial. Nous identifions une limitation critique : les VLMs actuels excellent principalement dans le raisonnement spatial égocentrique (du point de vue de la caméra) mais échouent à généraliser aux points de vue allocentriques lorsqu'ils doivent adopter le cadre de référence spatial d'une autre entité. Nous introduisons ViewSpatial-Bench, le premier benchmark complet conçu spécifiquement pour l'évaluation de la localisation spatiale multi-points de vue à travers cinq types de tâches distincts, soutenu par un pipeline d'annotation 3D automatisé qui génère des étiquettes directionnelles précises. Une évaluation approfondie de divers VLMs sur ViewSpatial-Bench révèle une disparité de performance significative : les modèles montrent des performances raisonnables sur les tâches en perspective caméra mais présentent une précision réduite lors du raisonnement à partir d'un point de vue humain. En affinant les VLMs sur notre ensemble de données spatiales multi-perspectives, nous obtenons une amélioration globale des performances de 46,24 % à travers les tâches, mettant en évidence l'efficacité de notre approche. Notre travail établit un benchmark crucial pour l'intelligence spatiale dans les systèmes d'IA incarnés et fournit des preuves empiriques que la modélisation des relations spatiales 3D améliore les capacités de compréhension spatiale correspondantes des VLMs.
English
Vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and reasoning about visual content, but significant challenges persist in tasks requiring cross-viewpoint understanding and spatial reasoning. We identify a critical limitation: current VLMs excel primarily at egocentric spatial reasoning (from the camera's perspective) but fail to generalize to allocentric viewpoints when required to adopt another entity's spatial frame of reference. We introduce ViewSpatial-Bench, the first comprehensive benchmark designed specifically for multi-viewpoint spatial localization recognition evaluation across five distinct task types, supported by an automated 3D annotation pipeline that generates precise directional labels. Comprehensive evaluation of diverse VLMs on ViewSpatial-Bench reveals a significant performance disparity: models demonstrate reasonable performance on camera-perspective tasks but exhibit reduced accuracy when reasoning from a human viewpoint. By fine-tuning VLMs on our multi-perspective spatial dataset, we achieve an overall performance improvement of 46.24% across tasks, highlighting the efficacy of our approach. Our work establishes a crucial benchmark for spatial intelligence in embodied AI systems and provides empirical evidence that modeling 3D spatial relationships enhances VLMs' corresponding spatial comprehension capabilities.

Summary

AI-Generated Summary

PDF102May 28, 2025