I grandi modelli linguistici visivi possono leggere le mappe come un essere umano?
Can Large Vision Language Models Read Maps Like a Human?
March 18, 2025
Autori: Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu
cs.AI
Abstract
In questo articolo, presentiamo MapBench, il primo dataset specificamente progettato per la navigazione outdoor basata su mappe pixelate e leggibili dall'uomo, curato a partire da scenari complessi di ricerca del percorso. MapBench comprende oltre 1600 problemi di ricerca del percorso nello spazio pixel derivati da 100 mappe diverse. In MapBench, i LVLM (Large Vision-Language Models) generano istruzioni di navigazione basate sul linguaggio, dato un'immagine della mappa e una query con punti di riferimento iniziali e finali. Per ogni mappa, MapBench fornisce un Map Space Scene Graph (MSSG) come struttura dati di indicizzazione per convertire tra linguaggio naturale e valutare i risultati generati dai LVLM. Dimostriamo che MapBench rappresenta una sfida significativa per i LVLM all'avanguardia, sia nel prompting zero-shot che in un framework di ragionamento potenziato da Chain-of-Thought (CoT) che scompone la navigazione su mappa in processi cognitivi sequenziali. La nostra valutazione sia dei LVLM open-source che di quelli closed-source evidenzia la notevole difficoltà posta da MapBench, rivelando limitazioni critiche nelle loro capacità di ragionamento spaziale e di decisione strutturata. Rilasciamo tutto il codice e il dataset su https://github.com/taco-group/MapBench.
English
In this paper, we introduce MapBench-the first dataset specifically designed
for human-readable, pixel-based map-based outdoor navigation, curated from
complex path finding scenarios. MapBench comprises over 1600 pixel space map
path finding problems from 100 diverse maps. In MapBench, LVLMs generate
language-based navigation instructions given a map image and a query with
beginning and end landmarks. For each map, MapBench provides Map Space Scene
Graph (MSSG) as an indexing data structure to convert between natural language
and evaluate LVLM-generated results. We demonstrate that MapBench significantly
challenges state-of-the-art LVLMs both zero-shot prompting and a
Chain-of-Thought (CoT) augmented reasoning framework that decomposes map
navigation into sequential cognitive processes. Our evaluation of both
open-source and closed-source LVLMs underscores the substantial difficulty
posed by MapBench, revealing critical limitations in their spatial reasoning
and structured decision-making capabilities. We release all the code and
dataset in https://github.com/taco-group/MapBench.