ViewSpatial-Bench: Valutazione della Localizzazione Spaziale Multi-prospettica nei Modelli Visione-Linguaggio
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models
May 27, 2025
Autori: Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno dimostrato capacità notevoli nella comprensione e nel ragionamento sul contenuto visivo, ma persistono sfide significative nei compiti che richiedono una comprensione multi-prospettica e un ragionamento spaziale. Identifichiamo una limitazione critica: i VLMs attuali eccellono principalmente nel ragionamento spaziale egocentrico (dalla prospettiva della telecamera) ma non riescono a generalizzare a prospettive allocentriche quando è necessario adottare il sistema di riferimento spaziale di un'altra entità. Introduciamo ViewSpatial-Bench, il primo benchmark completo progettato specificamente per la valutazione del riconoscimento della localizzazione spaziale multi-prospettica attraverso cinque tipi di compiti distinti, supportato da una pipeline di annotazione 3D automatizzata che genera etichette direzionali precise. Una valutazione completa di vari VLMs su ViewSpatial-Bench rivela una significativa disparità di prestazioni: i modelli dimostrano prestazioni ragionevoli nei compiti dalla prospettiva della telecamera, ma mostrano una ridotta accuratezza quando ragionano da una prospettiva umana. Ottimizzando i VLMs sul nostro dataset spaziale multi-prospettico, otteniamo un miglioramento complessivo delle prestazioni del 46,24% tra i compiti, evidenziando l'efficacia del nostro approccio. Il nostro lavoro stabilisce un benchmark cruciale per l'intelligenza spaziale nei sistemi AI incarnati e fornisce prove empiriche che la modellazione delle relazioni spaziali 3D migliora le corrispondenti capacità di comprensione spaziale dei VLMs.
English
Vision-language models (VLMs) have demonstrated remarkable capabilities in
understanding and reasoning about visual content, but significant challenges
persist in tasks requiring cross-viewpoint understanding and spatial reasoning.
We identify a critical limitation: current VLMs excel primarily at egocentric
spatial reasoning (from the camera's perspective) but fail to generalize to
allocentric viewpoints when required to adopt another entity's spatial frame of
reference. We introduce ViewSpatial-Bench, the first comprehensive benchmark
designed specifically for multi-viewpoint spatial localization recognition
evaluation across five distinct task types, supported by an automated 3D
annotation pipeline that generates precise directional labels. Comprehensive
evaluation of diverse VLMs on ViewSpatial-Bench reveals a significant
performance disparity: models demonstrate reasonable performance on
camera-perspective tasks but exhibit reduced accuracy when reasoning from a
human viewpoint. By fine-tuning VLMs on our multi-perspective spatial dataset,
we achieve an overall performance improvement of 46.24% across tasks,
highlighting the efficacy of our approach. Our work establishes a crucial
benchmark for spatial intelligence in embodied AI systems and provides
empirical evidence that modeling 3D spatial relationships enhances VLMs'
corresponding spatial comprehension capabilities.