ChatPaper.aiChatPaper

Hoe Ver Zijn VLMs van Visueel Ruimtelijk Inzicht? Een Benchmark-Gestuurd Perspectief

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

September 23, 2025
Auteurs: Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu
cs.AI

Samenvatting

Visueel-ruimtelijk redeneren (VSR) is een kernmenselijke cognitieve vaardigheid en een kritische vereiste voor het bevorderen van belichaamde intelligentie en autonome systemen. Ondanks recente vooruitgang in Vision-Language Models (VLMs) blijft het bereiken van menselijk niveau VSR zeer uitdagend vanwege de complexiteit van het representeren en redeneren over driedimensionale ruimte. In dit artikel presenteren we een systematisch onderzoek naar VSR in VLMs, waarbij we bestaande methodologieën bespreken op het gebied van invoermodaliteiten, modelarchitecturen, trainingsstrategieën en redeneermechanismen. Bovendien categoriseren we ruimtelijke intelligentie in drie niveaus van capaciteit, namelijk basisperceptie, ruimtelijk begrip, ruimtelijke planning, en stellen we SIBench samen, een benchmark voor ruimtelijke intelligentie die bijna 20 open-source datasets omvat over 23 taakinstellingen. Experimenten met state-of-the-art VLMs onthullen een opvallend gat tussen perceptie en redeneren, aangezien modellen competentie tonen in basisperceptietaken maar consistent onderpresteren in begrips- en planningstaken, met name in numerieke schatting, multi-view redeneren, temporele dynamiek en ruimtelijke verbeelding. Deze bevindingen onderstrepen de aanzienlijke uitdagingen die blijven bestaan bij het bereiken van ruimtelijke intelligentie, terwijl ze zowel een systematische routekaart als een uitgebreide benchmark bieden om toekomstig onderzoek in dit veld te stimuleren. De gerelateerde bronnen van deze studie zijn toegankelijk op https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
English
Visual Spatial Reasoning (VSR) is a core human cognitive ability and a critical requirement for advancing embodied intelligence and autonomous systems. Despite recent progress in Vision-Language Models (VLMs), achieving human-level VSR remains highly challenging due to the complexity of representing and reasoning over three-dimensional space. In this paper, we present a systematic investigation of VSR in VLMs, encompassing a review of existing methodologies across input modalities, model architectures, training strategies, and reasoning mechanisms. Furthermore, we categorize spatial intelligence into three levels of capability, ie, basic perception, spatial understanding, spatial planning, and curate SIBench, a spatial intelligence benchmark encompassing nearly 20 open-source datasets across 23 task settings. Experiments with state-of-the-art VLMs reveal a pronounced gap between perception and reasoning, as models show competence in basic perceptual tasks but consistently underperform in understanding and planning tasks, particularly in numerical estimation, multi-view reasoning, temporal dynamics, and spatial imagination. These findings underscore the substantial challenges that remain in achieving spatial intelligence, while providing both a systematic roadmap and a comprehensive benchmark to drive future research in the field. The related resources of this study are accessible at https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
PDF282September 25, 2025