ViewSpatial-Bench: Оценка многоперспективной пространственной локализации в моделях зрения и языка
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models
May 27, 2025
Авторы: Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), продемонстрировали выдающиеся способности в понимании и анализе визуального контента, однако значительные трудности сохраняются в задачах, требующих кросс-перспективного понимания и пространственного мышления. Мы выявили ключевое ограничение: современные VLMs преуспевают в основном в эгоцентрическом пространственном мышлении (с точки зрения камеры), но не способны обобщать знания для аллоцентрических перспектив, когда требуется принять пространственную систему отсчета другого объекта. Мы представляем ViewSpatial-Bench — первый всеобъемлющий бенчмарк, разработанный специально для оценки распознавания пространственной локализации с учетом множества перспектив, охватывающий пять различных типов задач и поддерживаемый автоматизированным конвейером 3D-аннотаций, который генерирует точные направленные метки. Комплексная оценка разнообразных VLMs на ViewSpatial-Bench выявила значительный разрыв в производительности: модели демонстрируют приемлемые результаты в задачах с перспективой камеры, но показывают сниженную точность при анализе с точки зрения человека. Благодаря тонкой настройке VLMs на нашем многоперспективном пространственном наборе данных мы достигли общего улучшения производительности на 46,24% по всем задачам, что подчеркивает эффективность нашего подхода. Наша работа устанавливает важный бенчмарк для пространственного интеллекта в воплощенных системах искусственного интеллекта и предоставляет эмпирические доказательства того, что моделирование 3D-пространственных отношений усиливает соответствующие способности VLMs к пространственному пониманию.
English
Vision-language models (VLMs) have demonstrated remarkable capabilities in
understanding and reasoning about visual content, but significant challenges
persist in tasks requiring cross-viewpoint understanding and spatial reasoning.
We identify a critical limitation: current VLMs excel primarily at egocentric
spatial reasoning (from the camera's perspective) but fail to generalize to
allocentric viewpoints when required to adopt another entity's spatial frame of
reference. We introduce ViewSpatial-Bench, the first comprehensive benchmark
designed specifically for multi-viewpoint spatial localization recognition
evaluation across five distinct task types, supported by an automated 3D
annotation pipeline that generates precise directional labels. Comprehensive
evaluation of diverse VLMs on ViewSpatial-Bench reveals a significant
performance disparity: models demonstrate reasonable performance on
camera-perspective tasks but exhibit reduced accuracy when reasoning from a
human viewpoint. By fine-tuning VLMs on our multi-perspective spatial dataset,
we achieve an overall performance improvement of 46.24% across tasks,
highlighting the efficacy of our approach. Our work establishes a crucial
benchmark for spatial intelligence in embodied AI systems and provides
empirical evidence that modeling 3D spatial relationships enhances VLMs'
corresponding spatial comprehension capabilities.Summary
AI-Generated Summary