Могут ли многомодальные языковые модели указать мне путь домой? Бенчмарк-исследование по детализированному визуальному анализу транзитных карт
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps
May 24, 2025
Авторы: Sicheng Feng, Song Wang, Shuyi Ouyang, Lingdong Kong, Zikai Song, Jianke Zhu, Huan Wang, Xinchao Wang
cs.AI
Аннотация
Мультимодальные крупные языковые модели (MLLMs) недавно достигли значительного прогресса в визуальных задачах, включая семантическое понимание сцен и согласование текста с изображениями, причем варианты с поддержкой рассуждений улучшают производительность на сложных задачах, связанных с математикой и логикой. Однако их способность к задачам рассуждений, требующим детального визуального понимания, остается недостаточно оцененной. Чтобы устранить этот пробел, мы представляем ReasonMap — эталонный набор данных, предназначенный для оценки способностей MLLMs к детальному визуальному пониманию и пространственному рассуждению. ReasonMap включает высококачественные схемы транспорта из 30 городов в 13 странах и содержит 1008 пар вопросов и ответов, охватывающих два типа вопросов и три шаблона. Кроме того, мы разработали двухуровневую систему оценки, которая корректно оценивает правильность и качество ответов. Всесторонние оценки 15 популярных MLLMs, включая базовые и варианты с поддержкой рассуждений, выявили неожиданную закономерность: среди моделей с открытым исходным кодом базовые модели превосходят модели с поддержкой рассуждений, тогда как для моделей с закрытым исходным кодом наблюдается обратная тенденция. Кроме того, производительность, как правило, снижается, когда визуальные входные данные маскируются, что указывает на то, что, хотя MLLMs могут использовать предварительные знания для ответа на некоторые вопросы, задачи детального визуального рассуждения все же требуют подлинного визуального восприятия для достижения высокой производительности. Наше эталонное исследование предлагает новые взгляды на визуальное рассуждение и способствует изучению разрыва между моделями с открытым и закрытым исходным кодом.
English
Multimodal large language models (MLLMs) have recently achieved significant
progress in visual tasks, including semantic scene understanding and text-image
alignment, with reasoning variants enhancing performance on complex tasks
involving mathematics and logic. However, their capacity for reasoning tasks
involving fine-grained visual understanding remains insufficiently evaluated.
To address this gap, we introduce ReasonMap, a benchmark designed to assess the
fine-grained visual understanding and spatial reasoning abilities of MLLMs.
ReasonMap encompasses high-resolution transit maps from 30 cities across 13
countries and includes 1,008 question-answer pairs spanning two question types
and three templates. Furthermore, we design a two-level evaluation pipeline
that properly assesses answer correctness and quality. Comprehensive
evaluations of 15 popular MLLMs, including both base and reasoning variants,
reveal a counterintuitive pattern: among open-source models, base models
outperform reasoning ones, while the opposite trend is observed in
closed-source models. Additionally, performance generally degrades when visual
inputs are masked, indicating that while MLLMs can leverage prior knowledge to
answer some questions, fine-grained visual reasoning tasks still require
genuine visual perception for strong performance. Our benchmark study offers
new insights into visual reasoning and contributes to investigating the gap
between open-source and closed-source models.Summary
AI-Generated Summary