Os MLLMs Podem Me Guiar para Casa? Um Estudo de Benchmark sobre Raciocínio Visual Detalhado em Mapas de Trânsito

Resumo

Modelos de linguagem multimodal de grande escala (MLLMs) têm recentemente alcançado progressos significativos em tarefas visuais, incluindo compreensão semântica de cenas e alinhamento texto-imagem, com variantes de raciocínio aprimorando o desempenho em tarefas complexas envolvendo matemática e lógica. No entanto, sua capacidade para tarefas de raciocínio que envolvem compreensão visual detalhada permanece insuficientemente avaliada. Para abordar essa lacuna, introduzimos o ReasonMap, um benchmark projetado para avaliar a compreensão visual detalhada e as habilidades de raciocínio espacial dos MLLMs. O ReasonMap abrange mapas de trânsito de alta resolução de 30 cidades em 13 países e inclui 1.008 pares de perguntas e respostas abrangendo dois tipos de perguntas e três modelos. Além disso, projetamos um pipeline de avaliação de dois níveis que avalia corretamente a precisão e a qualidade das respostas. Avaliações abrangentes de 15 MLLMs populares, incluindo variantes base e de raciocínio, revelam um padrão contraintuitivo: entre os modelos de código aberto, os modelos base superam os de raciocínio, enquanto a tendência oposta é observada em modelos de código fechado. Além disso, o desempenho geralmente se degrada quando as entradas visuais são mascaradas, indicando que, embora os MLLMs possam aproveitar conhecimento prévio para responder a algumas perguntas, tarefas de raciocínio visual detalhado ainda exigem percepção visual genuína para um desempenho forte. Nosso estudo de benchmark oferece novos insights sobre o raciocínio visual e contribui para investigar a lacuna entre modelos de código aberto e de código fechado.

English

Multimodal large language models (MLLMs) have recently achieved significant progress in visual tasks, including semantic scene understanding and text-image alignment, with reasoning variants enhancing performance on complex tasks involving mathematics and logic. However, their capacity for reasoning tasks involving fine-grained visual understanding remains insufficiently evaluated. To address this gap, we introduce ReasonMap, a benchmark designed to assess the fine-grained visual understanding and spatial reasoning abilities of MLLMs. ReasonMap encompasses high-resolution transit maps from 30 cities across 13 countries and includes 1,008 question-answer pairs spanning two question types and three templates. Furthermore, we design a two-level evaluation pipeline that properly assesses answer correctness and quality. Comprehensive evaluations of 15 popular MLLMs, including both base and reasoning variants, reveal a counterintuitive pattern: among open-source models, base models outperform reasoning ones, while the opposite trend is observed in closed-source models. Additionally, performance generally degrades when visual inputs are masked, indicating that while MLLMs can leverage prior knowledge to answer some questions, fine-grained visual reasoning tasks still require genuine visual perception for strong performance. Our benchmark study offers new insights into visual reasoning and contributes to investigating the gap between open-source and closed-source models.

Os MLLMs Podem Me Guiar para Casa? Um Estudo de Benchmark sobre Raciocínio Visual Detalhado em Mapas de Trânsito

Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

Resumo

Support