Могут ли крупные визуально-языковые модели читать карты как человек?
Can Large Vision Language Models Read Maps Like a Human?
March 18, 2025
Авторы: Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu
cs.AI
Аннотация
В данной статье мы представляем MapBench — первый набор данных, специально разработанный для удобочитаемой, пиксельной навигации на основе карт в условиях открытой местности, созданный на основе сложных сценариев поиска пути. MapBench включает более 1600 задач поиска пути в пиксельном пространстве на 100 разнообразных картах. В MapBench модели LVLM (Large Vision-Language Models) генерируют текстовые инструкции для навигации на основе изображения карты и запроса с указанием начальной и конечной точек. Для каждой карты MapBench предоставляет Map Space Scene Graph (MSSG) в качестве структуры данных для индексации, которая позволяет преобразовывать естественный язык и оценивать результаты, сгенерированные LVLM. Мы демонстрируем, что MapBench представляет значительную сложность для современных LVLM как в режиме zero-shot prompting, так и в рамках подхода Chain-of-Thought (CoT), который декомпозирует навигацию по карте на последовательные когнитивные процессы. Наша оценка как открытых, так и закрытых LVLM подчеркивает существенные трудности, создаваемые MapBench, выявляя критические ограничения в их способностях к пространственному мышлению и структурированному принятию решений. Мы публикуем весь код и набор данных по адресу https://github.com/taco-group/MapBench.
English
In this paper, we introduce MapBench-the first dataset specifically designed
for human-readable, pixel-based map-based outdoor navigation, curated from
complex path finding scenarios. MapBench comprises over 1600 pixel space map
path finding problems from 100 diverse maps. In MapBench, LVLMs generate
language-based navigation instructions given a map image and a query with
beginning and end landmarks. For each map, MapBench provides Map Space Scene
Graph (MSSG) as an indexing data structure to convert between natural language
and evaluate LVLM-generated results. We demonstrate that MapBench significantly
challenges state-of-the-art LVLMs both zero-shot prompting and a
Chain-of-Thought (CoT) augmented reasoning framework that decomposes map
navigation into sequential cognitive processes. Our evaluation of both
open-source and closed-source LVLMs underscores the substantial difficulty
posed by MapBench, revealing critical limitations in their spatial reasoning
and structured decision-making capabilities. We release all the code and
dataset in https://github.com/taco-group/MapBench.Summary
AI-Generated Summary