ChatPaper.aiChatPaper

Können MLLMs mich nach Hause führen? Eine Benchmark-Studie zur feinkörnigen visuellen Argumentation anhand von Verkehrsnetzplänen

Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

May 24, 2025
Autoren: Sicheng Feng, Song Wang, Shuyi Ouyang, Lingdong Kong, Zikai Song, Jianke Zhu, Huan Wang, Xinchao Wang
cs.AI

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben in jüngster Zeit bedeutende Fortschritte bei visuellen Aufgaben erzielt, einschließlich semantischer Szenenverständnis und Text-Bild-Ausrichtung, wobei Reasoning-Varianten die Leistung bei komplexen Aufgaben in den Bereichen Mathematik und Logik verbessern. Ihre Fähigkeiten bei Reasoning-Aufgaben, die ein feinkörniges visuelles Verständnis erfordern, wurden jedoch bisher unzureichend bewertet. Um diese Lücke zu schließen, stellen wir ReasonMap vor, einen Benchmark, der entwickelt wurde, um das feinkörnige visuelle Verständnis und die räumlichen Reasoning-Fähigkeiten von MLLMs zu bewerten. ReasonMap umfasst hochauflösende Verkehrsnetzpläne aus 30 Städten in 13 Ländern und beinhaltet 1.008 Frage-Antwort-Paare, die zwei Fragetypen und drei Vorlagen abdecken. Darüber hinaus haben wir eine zweistufige Evaluationspipeline entwickelt, die die Korrektheit und Qualität der Antworten angemessen bewertet. Umfassende Bewertungen von 15 populären MLLMs, einschließlich sowohl Basis- als auch Reasoning-Varianten, zeigen ein kontraintuitives Muster: Bei Open-Source-Modellen übertreffen Basismodelle die Reasoning-Varianten, während bei Closed-Source-Modellen der umgekehrte Trend zu beobachten ist. Zudem verschlechtert sich die Leistung im Allgemeinen, wenn visuelle Eingaben maskiert werden, was darauf hindeutet, dass MLLMs zwar Vorwissen nutzen können, um einige Fragen zu beantworten, feinkörnige visuelle Reasoning-Aufgaben jedoch weiterhin echte visuelle Wahrnehmung für eine starke Leistung erfordern. Unsere Benchmark-Studie bietet neue Einblicke in das visuelle Reasoning und trägt dazu bei, die Lücke zwischen Open-Source- und Closed-Source-Modellen zu untersuchen.
English
Multimodal large language models (MLLMs) have recently achieved significant progress in visual tasks, including semantic scene understanding and text-image alignment, with reasoning variants enhancing performance on complex tasks involving mathematics and logic. However, their capacity for reasoning tasks involving fine-grained visual understanding remains insufficiently evaluated. To address this gap, we introduce ReasonMap, a benchmark designed to assess the fine-grained visual understanding and spatial reasoning abilities of MLLMs. ReasonMap encompasses high-resolution transit maps from 30 cities across 13 countries and includes 1,008 question-answer pairs spanning two question types and three templates. Furthermore, we design a two-level evaluation pipeline that properly assesses answer correctness and quality. Comprehensive evaluations of 15 popular MLLMs, including both base and reasoning variants, reveal a counterintuitive pattern: among open-source models, base models outperform reasoning ones, while the opposite trend is observed in closed-source models. Additionally, performance generally degrades when visual inputs are masked, indicating that while MLLMs can leverage prior knowledge to answer some questions, fine-grained visual reasoning tasks still require genuine visual perception for strong performance. Our benchmark study offers new insights into visual reasoning and contributes to investigating the gap between open-source and closed-source models.

Summary

AI-Generated Summary

PDF233May 27, 2025