ChatPaper.aiChatPaper

¿Pueden los grandes modelos de visión y lenguaje leer mapas como un humano?

Can Large Vision Language Models Read Maps Like a Human?

March 18, 2025
Autores: Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu
cs.AI

Resumen

En este artículo, presentamos MapBench, el primer conjunto de datos diseñado específicamente para la navegación exterior basada en mapas pixelados y legibles por humanos, creado a partir de escenarios complejos de búsqueda de rutas. MapBench incluye más de 1600 problemas de búsqueda de rutas en mapas de espacio de píxeles, derivados de 100 mapas diversos. En MapBench, los LVLM (Modelos de Lenguaje Visual de Gran Escala) generan instrucciones de navegación basadas en lenguaje a partir de una imagen de mapa y una consulta con puntos de inicio y fin. Para cada mapa, MapBench proporciona un Grafo de Escena en el Espacio del Mapa (MSSG) como estructura de datos de indexación para convertir entre lenguaje natural y evaluar los resultados generados por los LVLM. Demostramos que MapBench representa un desafío significativo para los LVLM más avanzados, tanto en el enfoque de prompting zero-shot como en un marco de razonamiento aumentado con Cadena de Pensamiento (CoT) que descompone la navegación en mapas en procesos cognitivos secuenciales. Nuestra evaluación de LVLM tanto de código abierto como cerrado subraya la considerable dificultad que plantea MapBench, revelando limitaciones críticas en sus capacidades de razonamiento espacial y toma de decisiones estructurada. Publicamos todo el código y el conjunto de datos en https://github.com/taco-group/MapBench.
English
In this paper, we introduce MapBench-the first dataset specifically designed for human-readable, pixel-based map-based outdoor navigation, curated from complex path finding scenarios. MapBench comprises over 1600 pixel space map path finding problems from 100 diverse maps. In MapBench, LVLMs generate language-based navigation instructions given a map image and a query with beginning and end landmarks. For each map, MapBench provides Map Space Scene Graph (MSSG) as an indexing data structure to convert between natural language and evaluate LVLM-generated results. We demonstrate that MapBench significantly challenges state-of-the-art LVLMs both zero-shot prompting and a Chain-of-Thought (CoT) augmented reasoning framework that decomposes map navigation into sequential cognitive processes. Our evaluation of both open-source and closed-source LVLMs underscores the substantial difficulty posed by MapBench, revealing critical limitations in their spatial reasoning and structured decision-making capabilities. We release all the code and dataset in https://github.com/taco-group/MapBench.

Summary

AI-Generated Summary

PDF92March 24, 2025