ChatPaper.aiChatPaper

I MLLM Possono Guidarmi a Casa? Uno Studio di Benchmark sul Ragionamento Visivo Fine-Granularità dalle Mappe di Trasporto

Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

May 24, 2025
Autori: Sicheng Feng, Song Wang, Shuyi Ouyang, Lingdong Kong, Zikai Song, Jianke Zhu, Huan Wang, Xinchao Wang
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno recentemente compiuto progressi significativi nelle attività visive, tra cui la comprensione semantica delle scene e l'allineamento testo-immagine, con varianti di ragionamento che migliorano le prestazioni su compiti complessi che coinvolgono matematica e logica. Tuttavia, la loro capacità per compiti di ragionamento che richiedono una comprensione visiva fine non è stata sufficientemente valutata. Per colmare questa lacuna, introduciamo ReasonMap, un benchmark progettato per valutare la comprensione visiva fine e le abilità di ragionamento spaziale degli MLLM. ReasonMap comprende mappe di transito ad alta risoluzione di 30 città in 13 paesi e include 1.008 coppie domanda-risposta che coprono due tipi di domande e tre modelli. Inoltre, progettiamo una pipeline di valutazione a due livelli che valuta correttamente la correttezza e la qualità delle risposte. Valutazioni complete di 15 MLLM popolari, inclusi sia modelli base che varianti di ragionamento, rivelano un modello controintuitivo: tra i modelli open-source, i modelli base superano quelli di ragionamento, mentre si osserva il trend opposto nei modelli closed-source. Inoltre, le prestazioni generalmente peggiorano quando gli input visivi sono mascherati, indicando che, sebbene gli MLLM possano sfruttare conoscenze pregresse per rispondere ad alcune domande, i compiti di ragionamento visivo fine richiedono ancora una genuina percezione visiva per ottenere prestazioni solide. Il nostro studio di benchmark offre nuove intuizioni sul ragionamento visivo e contribuisce a indagare il divario tra modelli open-source e closed-source.
English
Multimodal large language models (MLLMs) have recently achieved significant progress in visual tasks, including semantic scene understanding and text-image alignment, with reasoning variants enhancing performance on complex tasks involving mathematics and logic. However, their capacity for reasoning tasks involving fine-grained visual understanding remains insufficiently evaluated. To address this gap, we introduce ReasonMap, a benchmark designed to assess the fine-grained visual understanding and spatial reasoning abilities of MLLMs. ReasonMap encompasses high-resolution transit maps from 30 cities across 13 countries and includes 1,008 question-answer pairs spanning two question types and three templates. Furthermore, we design a two-level evaluation pipeline that properly assesses answer correctness and quality. Comprehensive evaluations of 15 popular MLLMs, including both base and reasoning variants, reveal a counterintuitive pattern: among open-source models, base models outperform reasoning ones, while the opposite trend is observed in closed-source models. Additionally, performance generally degrades when visual inputs are masked, indicating that while MLLMs can leverage prior knowledge to answer some questions, fine-grained visual reasoning tasks still require genuine visual perception for strong performance. Our benchmark study offers new insights into visual reasoning and contributes to investigating the gap between open-source and closed-source models.
PDF243May 27, 2025