Kunnen MLLMs mij naar huis begeleiden? Een benchmarkstudie naar fijnmazige visuele redenering op basis van vervoerskaarten
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps
May 24, 2025
Auteurs: Sicheng Feng, Song Wang, Shuyi Ouyang, Lingdong Kong, Zikai Song, Jianke Zhu, Huan Wang, Xinchao Wang
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLMs) hebben recentelijk aanzienlijke vooruitgang geboekt in visuele taken, waaronder semantische scèneinterpretatie en tekst-beeldafstemming, waarbij redeneervarianten de prestaties op complexe taken met betrekking tot wiskunde en logica verbeteren. Hun capaciteit voor redeneertaken die fijnmazig visueel begrip vereisen, is echter nog onvoldoende geëvalueerd. Om deze leemte aan te pakken, introduceren we ReasonMap, een benchmark ontworpen om het fijnmazige visuele begrip en ruimtelijke redeneervermogen van MLLMs te beoordelen. ReasonMap omvat hoogwaardige vervoerskaarten van 30 steden in 13 landen en bevat 1.008 vraag-antwoordparen die twee vraagtypen en drie sjablonen beslaan. Bovendien ontwerpen we een tweeledige evaluatiepijplijn die de juistheid en kwaliteit van antwoorden adequaat beoordeelt. Uitgebreide evaluaties van 15 populaire MLLMs, inclusief zowel basis- als redeneervarianten, onthullen een contra-intuïtief patroon: onder open-source modellen presteren basismodellen beter dan redeneermodellen, terwijl het tegenovergestelde wordt waargenomen bij closed-source modellen. Daarnaast verslechtert de prestaties over het algemeen wanneer visuele invoer wordt gemaskeerd, wat aangeeft dat hoewel MLLMs voorkennis kunnen benutten om sommige vragen te beantwoorden, fijnmazige visuele redeneertaken nog steeds echt visueel waarnemingsvermogen vereisen voor sterke prestaties. Onze benchmarkstudie biedt nieuwe inzichten in visueel redeneren en draagt bij aan het onderzoeken van de kloof tussen open-source en closed-source modellen.
English
Multimodal large language models (MLLMs) have recently achieved significant
progress in visual tasks, including semantic scene understanding and text-image
alignment, with reasoning variants enhancing performance on complex tasks
involving mathematics and logic. However, their capacity for reasoning tasks
involving fine-grained visual understanding remains insufficiently evaluated.
To address this gap, we introduce ReasonMap, a benchmark designed to assess the
fine-grained visual understanding and spatial reasoning abilities of MLLMs.
ReasonMap encompasses high-resolution transit maps from 30 cities across 13
countries and includes 1,008 question-answer pairs spanning two question types
and three templates. Furthermore, we design a two-level evaluation pipeline
that properly assesses answer correctness and quality. Comprehensive
evaluations of 15 popular MLLMs, including both base and reasoning variants,
reveal a counterintuitive pattern: among open-source models, base models
outperform reasoning ones, while the opposite trend is observed in
closed-source models. Additionally, performance generally degrades when visual
inputs are masked, indicating that while MLLMs can leverage prior knowledge to
answer some questions, fine-grained visual reasoning tasks still require
genuine visual perception for strong performance. Our benchmark study offers
new insights into visual reasoning and contributes to investigating the gap
between open-source and closed-source models.