Kunnen grote visueel-taalkundige modellen kaarten lezen zoals een mens?
Can Large Vision Language Models Read Maps Like a Human?
March 18, 2025
Auteurs: Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu
cs.AI
Samenvatting
In dit artikel introduceren we MapBench - de eerste dataset die specifiek is ontworpen voor mensleesbare, pixelgebaseerde buitenomgevingnavigatie, samengesteld uit complexe padzoek-scenario's. MapBench omvat meer dan 1600 padzoekproblemen in de pixelruimte, afkomstig van 100 diverse kaarten. In MapBench genereren LVLM's (Large Vision-Language Models) taalgebaseerde navigatie-instructies op basis van een kaartafbeelding en een query met begin- en eindlandmarken. Voor elke kaart biedt MapBench een Map Space Scene Graph (MSSG) als een indexerende datastructuur om te converteren tussen natuurlijke taal en om LVLM-gegenereerde resultaten te evalueren. We tonen aan dat MapBench state-of-the-art LVLM's aanzienlijk uitdaagt, zowel bij zero-shot prompting als bij een Chain-of-Thought (CoT) versterkt redeneerkader dat kaartnavigatie opsplitst in sequentiële cognitieve processen. Onze evaluatie van zowel open-source als closed-source LVLM's benadrukt de aanzienlijke moeilijkheidsgraad van MapBench, wat kritieke beperkingen in hun ruimtelijk redeneervermogen en gestructureerde besluitvormingscapaciteiten aan het licht brengt. We maken alle code en de dataset beschikbaar op https://github.com/taco-group/MapBench.
English
In this paper, we introduce MapBench-the first dataset specifically designed
for human-readable, pixel-based map-based outdoor navigation, curated from
complex path finding scenarios. MapBench comprises over 1600 pixel space map
path finding problems from 100 diverse maps. In MapBench, LVLMs generate
language-based navigation instructions given a map image and a query with
beginning and end landmarks. For each map, MapBench provides Map Space Scene
Graph (MSSG) as an indexing data structure to convert between natural language
and evaluate LVLM-generated results. We demonstrate that MapBench significantly
challenges state-of-the-art LVLMs both zero-shot prompting and a
Chain-of-Thought (CoT) augmented reasoning framework that decomposes map
navigation into sequential cognitive processes. Our evaluation of both
open-source and closed-source LVLMs underscores the substantial difficulty
posed by MapBench, revealing critical limitations in their spatial reasoning
and structured decision-making capabilities. We release all the code and
dataset in https://github.com/taco-group/MapBench.Summary
AI-Generated Summary