대형 시각 언어 모델이 인간처럼 지도를 읽을 수 있을까?
Can Large Vision Language Models Read Maps Like a Human?
March 18, 2025
저자: Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu
cs.AI
초록
본 논문에서는 복잡한 경로 탐색 시나리오에서 추출한, 인간이 읽을 수 있는 픽셀 기반 지도를 활용한 야외 내비게이션을 위해 특별히 설계된 첫 번째 데이터셋인 MapBench을 소개합니다. MapBench은 100개의 다양한 지도에서 추출한 1600개 이상의 픽셀 공간 지도 경로 탐색 문제로 구성되어 있습니다. MapBench에서는 LVLM(Large Vision-Language Model)이 지도 이미지와 시작 및 종료 지점이 포함된 쿼리가 주어졌을 때 언어 기반 내비게이션 지시문을 생성합니다. 각 지도에 대해 MapBench은 자연어와 LVLM 생성 결과 간의 변환 및 평가를 위한 인덱싱 데이터 구조인 Map Space Scene Graph(MSSG)를 제공합니다. 우리는 MapBench가 최신 LVLM 모델들에게 zero-shot 프롬프팅과 지도 내비게이션을 순차적 인지 과정으로 분해하는 Chain-of-Thought(CoT) 강화 추론 프레임워크를 통해 상당한 도전 과제를 제시함을 입증합니다. 오픈소스 및 클로즈드소스 LVLM 모델들에 대한 평가 결과, MapBench가 이들의 공간 추론 및 구조화된 의사결정 능력에 있어 중요한 한계를 드러내는 것을 확인했습니다. 모든 코드와 데이터셋은 https://github.com/taco-group/MapBench에서 공개합니다.
English
In this paper, we introduce MapBench-the first dataset specifically designed
for human-readable, pixel-based map-based outdoor navigation, curated from
complex path finding scenarios. MapBench comprises over 1600 pixel space map
path finding problems from 100 diverse maps. In MapBench, LVLMs generate
language-based navigation instructions given a map image and a query with
beginning and end landmarks. For each map, MapBench provides Map Space Scene
Graph (MSSG) as an indexing data structure to convert between natural language
and evaluate LVLM-generated results. We demonstrate that MapBench significantly
challenges state-of-the-art LVLMs both zero-shot prompting and a
Chain-of-Thought (CoT) augmented reasoning framework that decomposes map
navigation into sequential cognitive processes. Our evaluation of both
open-source and closed-source LVLMs underscores the substantial difficulty
posed by MapBench, revealing critical limitations in their spatial reasoning
and structured decision-making capabilities. We release all the code and
dataset in https://github.com/taco-group/MapBench.Summary
AI-Generated Summary