Os MLLMs Podem Me Guiar para Casa? Um Estudo de Benchmark sobre Raciocínio Visual Detalhado em Mapas de Trânsito
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps
May 24, 2025
Autores: Sicheng Feng, Song Wang, Shuyi Ouyang, Lingdong Kong, Zikai Song, Jianke Zhu, Huan Wang, Xinchao Wang
cs.AI
Resumo
Modelos de linguagem multimodal de grande escala (MLLMs) têm recentemente alcançado progressos significativos em tarefas visuais, incluindo compreensão semântica de cenas e alinhamento texto-imagem, com variantes de raciocínio aprimorando o desempenho em tarefas complexas envolvendo matemática e lógica. No entanto, sua capacidade para tarefas de raciocínio que envolvem compreensão visual detalhada permanece insuficientemente avaliada. Para abordar essa lacuna, introduzimos o ReasonMap, um benchmark projetado para avaliar a compreensão visual detalhada e as habilidades de raciocínio espacial dos MLLMs. O ReasonMap abrange mapas de trânsito de alta resolução de 30 cidades em 13 países e inclui 1.008 pares de perguntas e respostas abrangendo dois tipos de perguntas e três modelos. Além disso, projetamos um pipeline de avaliação de dois níveis que avalia corretamente a precisão e a qualidade das respostas. Avaliações abrangentes de 15 MLLMs populares, incluindo variantes base e de raciocínio, revelam um padrão contraintuitivo: entre os modelos de código aberto, os modelos base superam os de raciocínio, enquanto a tendência oposta é observada em modelos de código fechado. Além disso, o desempenho geralmente se degrada quando as entradas visuais são mascaradas, indicando que, embora os MLLMs possam aproveitar conhecimento prévio para responder a algumas perguntas, tarefas de raciocínio visual detalhado ainda exigem percepção visual genuína para um desempenho forte. Nosso estudo de benchmark oferece novos insights sobre o raciocínio visual e contribui para investigar a lacuna entre modelos de código aberto e de código fechado.
English
Multimodal large language models (MLLMs) have recently achieved significant
progress in visual tasks, including semantic scene understanding and text-image
alignment, with reasoning variants enhancing performance on complex tasks
involving mathematics and logic. However, their capacity for reasoning tasks
involving fine-grained visual understanding remains insufficiently evaluated.
To address this gap, we introduce ReasonMap, a benchmark designed to assess the
fine-grained visual understanding and spatial reasoning abilities of MLLMs.
ReasonMap encompasses high-resolution transit maps from 30 cities across 13
countries and includes 1,008 question-answer pairs spanning two question types
and three templates. Furthermore, we design a two-level evaluation pipeline
that properly assesses answer correctness and quality. Comprehensive
evaluations of 15 popular MLLMs, including both base and reasoning variants,
reveal a counterintuitive pattern: among open-source models, base models
outperform reasoning ones, while the opposite trend is observed in
closed-source models. Additionally, performance generally degrades when visual
inputs are masked, indicating that while MLLMs can leverage prior knowledge to
answer some questions, fine-grained visual reasoning tasks still require
genuine visual perception for strong performance. Our benchmark study offers
new insights into visual reasoning and contributes to investigating the gap
between open-source and closed-source models.