Les grands modèles de vision et de langage peuvent-ils lire des cartes comme un humain ?
Can Large Vision Language Models Read Maps Like a Human?
March 18, 2025
Auteurs: Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu
cs.AI
Résumé
Dans cet article, nous présentons MapBench, le premier ensemble de données spécifiquement conçu pour la navigation extérieure basée sur des cartes lisibles par l'homme et représentées en pixels, élaboré à partir de scénarios complexes de recherche de chemin. MapBench comprend plus de 1600 problèmes de recherche de chemin dans des cartes en espace pixel, issus de 100 cartes diverses. Dans MapBench, les LVLM (Large Vision-Language Models) génèrent des instructions de navigation basées sur le langage à partir d'une image de carte et d'une requête indiquant des points de départ et d'arrivée. Pour chaque carte, MapBench fournit un graphe de scène en espace cartographique (MSSG) comme structure de données d'indexation pour convertir entre le langage naturel et évaluer les résultats générés par les LVLM. Nous démontrons que MapBench représente un défi significatif pour les LVLM de pointe, tant en mode zero-shot prompting qu'avec un cadre de raisonnement augmenté par la méthode Chain-of-Thought (CoT), qui décompose la navigation sur carte en processus cognitifs séquentiels. Notre évaluation des LVLM open-source et closed-source met en évidence la difficulté substantielle posée par MapBench, révélant des limitations critiques dans leurs capacités de raisonnement spatial et de prise de décision structurée. Nous publions l'intégralité du code et de l'ensemble de données sur https://github.com/taco-group/MapBench.
English
In this paper, we introduce MapBench-the first dataset specifically designed
for human-readable, pixel-based map-based outdoor navigation, curated from
complex path finding scenarios. MapBench comprises over 1600 pixel space map
path finding problems from 100 diverse maps. In MapBench, LVLMs generate
language-based navigation instructions given a map image and a query with
beginning and end landmarks. For each map, MapBench provides Map Space Scene
Graph (MSSG) as an indexing data structure to convert between natural language
and evaluate LVLM-generated results. We demonstrate that MapBench significantly
challenges state-of-the-art LVLMs both zero-shot prompting and a
Chain-of-Thought (CoT) augmented reasoning framework that decomposes map
navigation into sequential cognitive processes. Our evaluation of both
open-source and closed-source LVLMs underscores the substantial difficulty
posed by MapBench, revealing critical limitations in their spatial reasoning
and structured decision-making capabilities. We release all the code and
dataset in https://github.com/taco-group/MapBench.Summary
AI-Generated Summary