ChatPaper.aiChatPaper

MLLM이 나를 집으로 안내할 수 있을까? 대중교통 지도에서의 세밀한 시각적 추론에 대한 벤치마크 연구

Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

May 24, 2025
저자: Sicheng Feng, Song Wang, Shuyi Ouyang, Lingdong Kong, Zikai Song, Jianke Zhu, Huan Wang, Xinchao Wang
cs.AI

초록

최근 멀티모달 대형 언어 모델(MLLMs)은 시맨틱 장면 이해와 텍스트-이미지 정렬을 포함한 시각적 작업에서 상당한 진전을 이루었으며, 수학과 논리를 포함한 복잡한 작업에서의 성능을 향상시키는 추론 변형 모델들이 등장했습니다. 그러나 세밀한 시각적 이해를 요구하는 추론 작업에 대한 이들의 능력은 아직 충분히 평가되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 MLLMs의 세밀한 시각적 이해와 공간 추론 능력을 평가하기 위한 벤치마크인 ReasonMap를 소개합니다. ReasonMap는 13개국 30개 도시의 고해상도 대중교통 지도를 포함하며, 두 가지 질문 유형과 세 가지 템플릿으로 구성된 1,008개의 질문-답변 쌍을 제공합니다. 또한, 답변의 정확성과 질을 적절히 평가할 수 있는 두 단계의 평가 파이프라인을 설계했습니다. 베이스 모델과 추론 변형 모델을 포함한 15개의 인기 있는 MLLMs에 대한 포괄적인 평가 결과, 오픈소스 모델에서는 베이스 모델이 추론 모델을 능가하는 반면, 클로즈드소스 모델에서는 반대의 경향이 관찰되었습니다. 또한, 시각적 입력이 마스킹된 경우 일반적으로 성능이 저하되는데, 이는 MLLMs가 일부 질문에 대해 사전 지식을 활용하여 답변할 수 있지만, 세밀한 시각적 추론 작업에서는 강력한 성능을 위해 진정한 시각적 인식이 여전히 필요함을 시사합니다. 우리의 벤치마크 연구는 시각적 추론에 대한 새로운 통찰을 제공하며, 오픈소스와 클로즈드소스 모델 간의 격차를 조사하는 데 기여합니다.
English
Multimodal large language models (MLLMs) have recently achieved significant progress in visual tasks, including semantic scene understanding and text-image alignment, with reasoning variants enhancing performance on complex tasks involving mathematics and logic. However, their capacity for reasoning tasks involving fine-grained visual understanding remains insufficiently evaluated. To address this gap, we introduce ReasonMap, a benchmark designed to assess the fine-grained visual understanding and spatial reasoning abilities of MLLMs. ReasonMap encompasses high-resolution transit maps from 30 cities across 13 countries and includes 1,008 question-answer pairs spanning two question types and three templates. Furthermore, we design a two-level evaluation pipeline that properly assesses answer correctness and quality. Comprehensive evaluations of 15 popular MLLMs, including both base and reasoning variants, reveal a counterintuitive pattern: among open-source models, base models outperform reasoning ones, while the opposite trend is observed in closed-source models. Additionally, performance generally degrades when visual inputs are masked, indicating that while MLLMs can leverage prior knowledge to answer some questions, fine-grained visual reasoning tasks still require genuine visual perception for strong performance. Our benchmark study offers new insights into visual reasoning and contributes to investigating the gap between open-source and closed-source models.

Summary

AI-Generated Summary

PDF233May 27, 2025