OmniSpatial: Rumo a um Benchmark Abrangente de Raciocínio Espacial para Modelos de Linguagem Visual
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
June 3, 2025
Autores: Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi
cs.AI
Resumo
O raciocínio espacial é um aspecto fundamental da psicologia cognitiva e continua sendo um grande gargalo para os modelos visão-linguagem (VLMs) atuais. Embora pesquisas extensas tenham buscado avaliar ou melhorar a compreensão dos VLMs sobre relações espaciais básicas, como distinguir esquerda de direita, perto de longe e contagem de objetos, essas tarefas representam apenas o nível mais fundamental do raciocínio espacial. Neste trabalho, apresentamos o OmniSpatial, um benchmark abrangente e desafiador para raciocínio espacial, fundamentado na psicologia cognitiva. O OmniSpatial abrange quatro categorias principais: raciocínio dinâmico, lógica espacial complexa, interação espacial e tomada de perspectiva, com 50 subcategorias detalhadas. Por meio de coleta de dados na Internet e anotação manual cuidadosa, construímos mais de 1,5 mil pares de perguntas e respostas. Experimentos extensos mostram que tanto VLMs de código aberto quanto proprietários, bem como modelos existentes de raciocínio e compreensão espacial, apresentam limitações significativas na compreensão espacial abrangente. Analisamos ainda os casos de falha e propomos direções potenciais para pesquisas futuras.
English
Spatial reasoning is a key aspect of cognitive psychology and remains a major
bottleneck for current vision-language models (VLMs). While extensive research
has aimed to evaluate or improve VLMs' understanding of basic spatial
relations, such as distinguishing left from right, near from far, and object
counting, these tasks represent only the most fundamental level of spatial
reasoning. In this work, we introduce OmniSpatial, a comprehensive and
challenging benchmark for spatial reasoning, grounded in cognitive psychology.
OmniSpatial covers four major categories: dynamic reasoning, complex spatial
logic, spatial interaction, and perspective-taking, with 50 fine-grained
subcategories. Through Internet data crawling and careful manual annotation, we
construct over 1.5K question-answer pairs. Extensive experiments show that both
open- and closed-source VLMs, as well as existing reasoning and spatial
understanding models, exhibit significant limitations in comprehensive spatial
understanding. We further analyze failure cases and propose potential
directions for future research.