ViewSpatial-Bench: Evaluatie van multi-perspectief ruimtelijke lokalisatie in visie-taalmodellen
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models
May 27, 2025
Auteurs: Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang
cs.AI
Samenvatting
Vision-language modellen (VLMs) hebben opmerkelijke capaciteiten getoond in het begrijpen en redeneren over visuele inhoud, maar aanzienlijke uitdagingen blijven bestaan bij taken die inzicht en ruimtelijk redeneren vanuit verschillende gezichtspunten vereisen. We identificeren een kritieke beperking: huidige VLMs blinken voornamelijk uit in egocentrisch ruimtelijk redeneren (vanuit het perspectief van de camera), maar slagen er niet in om te generaliseren naar allocentrische gezichtspunten wanneer ze het ruimtelijke referentiekader van een andere entiteit moeten aannemen. We introduceren ViewSpatial-Bench, de eerste uitgebreide benchmark die specifiek is ontworpen voor de evaluatie van ruimtelijke lokalisatieherkenning vanuit meerdere gezichtspunten, ondersteund door een geautomatiseerde 3D-annotatiepijplijn die precieze richtingslabels genereert. Een uitgebreide evaluatie van diverse VLMs op ViewSpatial-Bench onthult een aanzienlijk prestatieverschil: modellen tonen redelijke prestaties bij taken vanuit cameraperspectief, maar vertonen verminderde nauwkeurigheid bij het redeneren vanuit een menselijk gezichtspunt. Door VLMs te fine-tunen op onze multi-perspectieve ruimtelijke dataset, behalen we een algehele prestatieverbetering van 46,24% over verschillende taken, wat de effectiviteit van onze aanpak benadrukt. Ons werk stelt een cruciale benchmark vast voor ruimtelijke intelligentie in belichaamde AI-systemen en levert empirisch bewijs dat het modelleren van 3D-ruimtelijke relaties de corresponderende ruimtelijke begripscapaciteiten van VLMs verbetert.
English
Vision-language models (VLMs) have demonstrated remarkable capabilities in
understanding and reasoning about visual content, but significant challenges
persist in tasks requiring cross-viewpoint understanding and spatial reasoning.
We identify a critical limitation: current VLMs excel primarily at egocentric
spatial reasoning (from the camera's perspective) but fail to generalize to
allocentric viewpoints when required to adopt another entity's spatial frame of
reference. We introduce ViewSpatial-Bench, the first comprehensive benchmark
designed specifically for multi-viewpoint spatial localization recognition
evaluation across five distinct task types, supported by an automated 3D
annotation pipeline that generates precise directional labels. Comprehensive
evaluation of diverse VLMs on ViewSpatial-Bench reveals a significant
performance disparity: models demonstrate reasonable performance on
camera-perspective tasks but exhibit reduced accuracy when reasoning from a
human viewpoint. By fine-tuning VLMs on our multi-perspective spatial dataset,
we achieve an overall performance improvement of 46.24% across tasks,
highlighting the efficacy of our approach. Our work establishes a crucial
benchmark for spatial intelligence in embodied AI systems and provides
empirical evidence that modeling 3D spatial relationships enhances VLMs'
corresponding spatial comprehension capabilities.