OmniSpatial: Op weg naar een uitgebreide benchmark voor ruimtelijk redeneren voor visueel-taalmodelen
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
June 3, 2025
Auteurs: Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi
cs.AI
Samenvatting
Ruimtelijk redeneren is een belangrijk aspect van de cognitieve psychologie en blijft een groot knelpunt voor huidige visie-taalmodellen (VLMs). Hoewel uitgebreid onderzoek heeft geprobeerd om het begrip van VLMs van basisruimtelijke relaties te evalueren of te verbeteren, zoals het onderscheiden van links en rechts, dichtbij en veraf, en het tellen van objecten, vertegenwoordigen deze taken slechts het meest fundamentele niveau van ruimtelijk redeneren. In dit werk introduceren we OmniSpatial, een uitgebreide en uitdagende benchmark voor ruimtelijk redeneren, gebaseerd op de cognitieve psychologie. OmniSpatial omvat vier hoofdcategorieën: dynamisch redeneren, complexe ruimtelijke logica, ruimtelijke interactie en perspectiefname, met 50 fijnmazige subcategorieën. Door middel van internetdatacrawling en zorgvuldige handmatige annotatie hebben we meer dan 1.500 vraag-antwoordparen geconstrueerd. Uitgebreide experimenten tonen aan dat zowel open-source als closed-source VLMs, evenals bestaande redeneer- en ruimtelijk begripsmodellen, aanzienlijke beperkingen vertonen in het alomvattende ruimtelijke begrip. We analyseren verder de mislukte gevallen en stellen mogelijke richtingen voor toekomstig onderzoek voor.
English
Spatial reasoning is a key aspect of cognitive psychology and remains a major
bottleneck for current vision-language models (VLMs). While extensive research
has aimed to evaluate or improve VLMs' understanding of basic spatial
relations, such as distinguishing left from right, near from far, and object
counting, these tasks represent only the most fundamental level of spatial
reasoning. In this work, we introduce OmniSpatial, a comprehensive and
challenging benchmark for spatial reasoning, grounded in cognitive psychology.
OmniSpatial covers four major categories: dynamic reasoning, complex spatial
logic, spatial interaction, and perspective-taking, with 50 fine-grained
subcategories. Through Internet data crawling and careful manual annotation, we
construct over 1.5K question-answer pairs. Extensive experiments show that both
open- and closed-source VLMs, as well as existing reasoning and spatial
understanding models, exhibit significant limitations in comprehensive spatial
understanding. We further analyze failure cases and propose potential
directions for future research.