ChatPaper.aiChatPaper

¿Pueden los MLLMs guiarme a casa? Un estudio de referencia sobre el razonamiento visual detallado en mapas de tránsito

Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

May 24, 2025
Autores: Sicheng Feng, Song Wang, Shuyi Ouyang, Lingdong Kong, Zikai Song, Jianke Zhu, Huan Wang, Xinchao Wang
cs.AI

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances significativos recientemente en tareas visuales, incluyendo la comprensión semántica de escenas y la alineación texto-imagen, con variantes de razonamiento que mejoran el rendimiento en tareas complejas que involucran matemáticas y lógica. Sin embargo, su capacidad para tareas de razonamiento que requieren una comprensión visual detallada sigue siendo insuficientemente evaluada. Para abordar esta brecha, presentamos ReasonMap, un punto de referencia diseñado para evaluar la comprensión visual detallada y las habilidades de razonamiento espacial de los MLLMs. ReasonMap abarca mapas de tránsito de alta resolución de 30 ciudades en 13 países e incluye 1,008 pares de preguntas-respuestas que abarcan dos tipos de preguntas y tres plantillas. Además, diseñamos una canalización de evaluación de dos niveles que evalúa adecuadamente la corrección y calidad de las respuestas. Las evaluaciones exhaustivas de 15 MLLMs populares, incluyendo tanto modelos base como variantes de razonamiento, revelan un patrón contraintuitivo: entre los modelos de código abierto, los modelos base superan a los de razonamiento, mientras que se observa la tendencia opuesta en los modelos de código cerrado. Además, el rendimiento generalmente se degrada cuando las entradas visuales están enmascaradas, lo que indica que, aunque los MLLMs pueden aprovechar el conocimiento previo para responder algunas preguntas, las tareas de razonamiento visual detallado aún requieren una percepción visual genuina para un rendimiento sólido. Nuestro estudio de referencia ofrece nuevas perspectivas sobre el razonamiento visual y contribuye a investigar la brecha entre los modelos de código abierto y los de código cerrado.
English
Multimodal large language models (MLLMs) have recently achieved significant progress in visual tasks, including semantic scene understanding and text-image alignment, with reasoning variants enhancing performance on complex tasks involving mathematics and logic. However, their capacity for reasoning tasks involving fine-grained visual understanding remains insufficiently evaluated. To address this gap, we introduce ReasonMap, a benchmark designed to assess the fine-grained visual understanding and spatial reasoning abilities of MLLMs. ReasonMap encompasses high-resolution transit maps from 30 cities across 13 countries and includes 1,008 question-answer pairs spanning two question types and three templates. Furthermore, we design a two-level evaluation pipeline that properly assesses answer correctness and quality. Comprehensive evaluations of 15 popular MLLMs, including both base and reasoning variants, reveal a counterintuitive pattern: among open-source models, base models outperform reasoning ones, while the opposite trend is observed in closed-source models. Additionally, performance generally degrades when visual inputs are masked, indicating that while MLLMs can leverage prior knowledge to answer some questions, fine-grained visual reasoning tasks still require genuine visual perception for strong performance. Our benchmark study offers new insights into visual reasoning and contributes to investigating the gap between open-source and closed-source models.

Summary

AI-Generated Summary

PDF233May 27, 2025