Насколько далеки модели визуального языка от визуально-пространственного интеллекта? Перспектива, основанная на бенчмарках
How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective
September 23, 2025
Авторы: Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu
cs.AI
Аннотация
Визуально-пространственное мышление (Visual Spatial Reasoning, VSR) является ключевой когнитивной способностью человека и важным требованием для развития воплощённого интеллекта и автономных систем. Несмотря на недавние успехи в области моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), достижение человеческого уровня VSR остаётся крайне сложной задачей из-за сложности представления и рассуждений в трёхмерном пространстве. В данной статье мы представляем систематическое исследование VSR в VLMs, включающее обзор существующих методологий, охватывающих входные модальности, архитектуры моделей, стратегии обучения и механизмы рассуждений. Кроме того, мы классифицируем пространственный интеллект на три уровня способностей: базовое восприятие, пространственное понимание и пространственное планирование, а также создаём SIBench — эталонный тест пространственного интеллекта, включающий около 20 открытых наборов данных для 23 задач. Эксперименты с современными VLMs выявляют значительный разрыв между восприятием и рассуждением: модели демонстрируют компетентность в базовых задачах восприятия, но стабильно показывают низкие результаты в задачах понимания и планирования, особенно в численной оценке, многовидовом рассуждении, временной динамике и пространственном воображении. Эти результаты подчёркивают существенные вызовы, которые остаются на пути к достижению пространственного интеллекта, одновременно предоставляя как систематическую дорожную карту, так и всеобъемлющий эталон для стимулирования будущих исследований в этой области. Связанные ресурсы данного исследования доступны по адресу https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
English
Visual Spatial Reasoning (VSR) is a core human cognitive ability and a
critical requirement for advancing embodied intelligence and autonomous
systems. Despite recent progress in Vision-Language Models (VLMs), achieving
human-level VSR remains highly challenging due to the complexity of
representing and reasoning over three-dimensional space. In this paper, we
present a systematic investigation of VSR in VLMs, encompassing a review of
existing methodologies across input modalities, model architectures, training
strategies, and reasoning mechanisms. Furthermore, we categorize spatial
intelligence into three levels of capability, ie, basic perception, spatial
understanding, spatial planning, and curate SIBench, a spatial intelligence
benchmark encompassing nearly 20 open-source datasets across 23 task settings.
Experiments with state-of-the-art VLMs reveal a pronounced gap between
perception and reasoning, as models show competence in basic perceptual tasks
but consistently underperform in understanding and planning tasks, particularly
in numerical estimation, multi-view reasoning, temporal dynamics, and spatial
imagination. These findings underscore the substantial challenges that remain
in achieving spatial intelligence, while providing both a systematic roadmap
and a comprehensive benchmark to drive future research in the field. The
related resources of this study are accessible at
https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.