ChatPaper.aiChatPaper

Grandes Modelos de Visão e Linguagem Podem Ler Mapas Como um Ser Humano?

Can Large Vision Language Models Read Maps Like a Human?

March 18, 2025
Autores: Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu
cs.AI

Resumo

Neste artigo, apresentamos o MapBench - o primeiro conjunto de dados especificamente projetado para navegação externa baseada em mapas pixelizados e legíveis por humanos, criado a partir de cenários complexos de busca de caminhos. O MapBench compreende mais de 1600 problemas de busca de caminhos em mapas de espaço pixelizado, derivados de 100 mapas diversos. No MapBench, os LVLMs (Large Vision-Language Models) geram instruções de navegação baseadas em linguagem, dadas uma imagem de mapa e uma consulta com pontos de referência inicial e final. Para cada mapa, o MapBench fornece um Map Space Scene Graph (MSSG) como uma estrutura de dados de indexação para converter entre linguagem natural e avaliar os resultados gerados pelos LVLMs. Demonstramos que o MapBench desafia significativamente os LVLMs state-of-the-art, tanto em cenários de prompting zero-shot quanto em um framework de raciocínio aumentado por Chain-of-Thought (CoT), que decompõe a navegação em mapas em processos cognitivos sequenciais. Nossa avaliação de LVLMs tanto de código aberto quanto fechado destaca a dificuldade substancial imposta pelo MapBench, revelando limitações críticas em suas capacidades de raciocínio espacial e tomada de decisão estruturada. Disponibilizamos todo o código e o conjunto de dados em https://github.com/taco-group/MapBench.
English
In this paper, we introduce MapBench-the first dataset specifically designed for human-readable, pixel-based map-based outdoor navigation, curated from complex path finding scenarios. MapBench comprises over 1600 pixel space map path finding problems from 100 diverse maps. In MapBench, LVLMs generate language-based navigation instructions given a map image and a query with beginning and end landmarks. For each map, MapBench provides Map Space Scene Graph (MSSG) as an indexing data structure to convert between natural language and evaluate LVLM-generated results. We demonstrate that MapBench significantly challenges state-of-the-art LVLMs both zero-shot prompting and a Chain-of-Thought (CoT) augmented reasoning framework that decomposes map navigation into sequential cognitive processes. Our evaluation of both open-source and closed-source LVLMs underscores the substantial difficulty posed by MapBench, revealing critical limitations in their spatial reasoning and structured decision-making capabilities. We release all the code and dataset in https://github.com/taco-group/MapBench.

Summary

AI-Generated Summary

PDF92March 24, 2025