Les MLLM peuvent-elles me guider chez moi ? Une étude comparative sur le raisonnement visuel granulaire à partir de cartes de transport
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps
May 24, 2025
Auteurs: Sicheng Feng, Song Wang, Shuyi Ouyang, Lingdong Kong, Zikai Song, Jianke Zhu, Huan Wang, Xinchao Wang
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) ont récemment réalisé des progrès significatifs dans les tâches visuelles, notamment la compréhension sémantique des scènes et l'alignement texte-image, avec des variantes de raisonnement améliorant les performances sur des tâches complexes impliquant des mathématiques et de la logique. Cependant, leur capacité pour les tâches de raisonnement nécessitant une compréhension visuelle fine reste insuffisamment évaluée. Pour combler cette lacune, nous introduisons ReasonMap, un benchmark conçu pour évaluer les capacités de compréhension visuelle fine et de raisonnement spatial des MLLMs. ReasonMap englobe des cartes de transport en haute résolution provenant de 30 villes dans 13 pays et inclut 1 008 paires de questions-réponses couvrant deux types de questions et trois modèles. De plus, nous concevons un pipeline d'évaluation à deux niveaux qui évalue correctement l'exactitude et la qualité des réponses. Des évaluations complètes de 15 MLLMs populaires, incluant à la fois des modèles de base et des variantes de raisonnement, révèlent un schéma contre-intuitif : parmi les modèles open-source, les modèles de base surpassent ceux de raisonnement, tandis que la tendance inverse est observée pour les modèles propriétaires. Par ailleurs, les performances se dégradent généralement lorsque les entrées visuelles sont masquées, indiquant que bien que les MLLMs puissent exploiter des connaissances préalables pour répondre à certaines questions, les tâches de raisonnement visuel fin nécessitent une véritable perception visuelle pour obtenir de bonnes performances. Notre étude de benchmark offre de nouvelles perspectives sur le raisonnement visuel et contribue à l'exploration de l'écart entre les modèles open-source et propriétaires.
English
Multimodal large language models (MLLMs) have recently achieved significant
progress in visual tasks, including semantic scene understanding and text-image
alignment, with reasoning variants enhancing performance on complex tasks
involving mathematics and logic. However, their capacity for reasoning tasks
involving fine-grained visual understanding remains insufficiently evaluated.
To address this gap, we introduce ReasonMap, a benchmark designed to assess the
fine-grained visual understanding and spatial reasoning abilities of MLLMs.
ReasonMap encompasses high-resolution transit maps from 30 cities across 13
countries and includes 1,008 question-answer pairs spanning two question types
and three templates. Furthermore, we design a two-level evaluation pipeline
that properly assesses answer correctness and quality. Comprehensive
evaluations of 15 popular MLLMs, including both base and reasoning variants,
reveal a counterintuitive pattern: among open-source models, base models
outperform reasoning ones, while the opposite trend is observed in
closed-source models. Additionally, performance generally degrades when visual
inputs are masked, indicating that while MLLMs can leverage prior knowledge to
answer some questions, fine-grained visual reasoning tasks still require
genuine visual perception for strong performance. Our benchmark study offers
new insights into visual reasoning and contributes to investigating the gap
between open-source and closed-source models.Summary
AI-Generated Summary