Kunnen grote visueel-taalkundige modellen kaarten lezen zoals een mens?

Samenvatting

In dit artikel introduceren we MapBench - de eerste dataset die specifiek is ontworpen voor mensleesbare, pixelgebaseerde buitenomgevingnavigatie, samengesteld uit complexe padzoek-scenario's. MapBench omvat meer dan 1600 padzoekproblemen in de pixelruimte, afkomstig van 100 diverse kaarten. In MapBench genereren LVLM's (Large Vision-Language Models) taalgebaseerde navigatie-instructies op basis van een kaartafbeelding en een query met begin- en eindlandmarken. Voor elke kaart biedt MapBench een Map Space Scene Graph (MSSG) als een indexerende datastructuur om te converteren tussen natuurlijke taal en om LVLM-gegenereerde resultaten te evalueren. We tonen aan dat MapBench state-of-the-art LVLM's aanzienlijk uitdaagt, zowel bij zero-shot prompting als bij een Chain-of-Thought (CoT) versterkt redeneerkader dat kaartnavigatie opsplitst in sequentiële cognitieve processen. Onze evaluatie van zowel open-source als closed-source LVLM's benadrukt de aanzienlijke moeilijkheidsgraad van MapBench, wat kritieke beperkingen in hun ruimtelijk redeneervermogen en gestructureerde besluitvormingscapaciteiten aan het licht brengt. We maken alle code en de dataset beschikbaar op https://github.com/taco-group/MapBench.

English

In this paper, we introduce MapBench-the first dataset specifically designed for human-readable, pixel-based map-based outdoor navigation, curated from complex path finding scenarios. MapBench comprises over 1600 pixel space map path finding problems from 100 diverse maps. In MapBench, LVLMs generate language-based navigation instructions given a map image and a query with beginning and end landmarks. For each map, MapBench provides Map Space Scene Graph (MSSG) as an indexing data structure to convert between natural language and evaluate LVLM-generated results. We demonstrate that MapBench significantly challenges state-of-the-art LVLMs both zero-shot prompting and a Chain-of-Thought (CoT) augmented reasoning framework that decomposes map navigation into sequential cognitive processes. Our evaluation of both open-source and closed-source LVLMs underscores the substantial difficulty posed by MapBench, revealing critical limitations in their spatial reasoning and structured decision-making capabilities. We release all the code and dataset in https://github.com/taco-group/MapBench.

Kunnen grote visueel-taalkundige modellen kaarten lezen zoals een mens?

Can Large Vision Language Models Read Maps Like a Human?

Samenvatting

Support