MMMR: Бенчмаркинг задач массового мультимодального анализа
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks
May 22, 2025
Авторы: Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили осуществлять унифицированную обработку языковых, визуальных и структурированных данных, открывая путь к решению сложных задач, таких как логический вывод, пространственное рассуждение и научный анализ. Несмотря на их потенциал, способности к рассуждению MLLMs, особенно тех, которые дополнены промежуточными следами мышления (MLLMs-T), остаются плохо изученными и не имеют стандартизированных критериев оценки. Существующие работы в основном сосредоточены на восприятии или правильности конечного ответа, что дает ограниченное представление о том, как модели рассуждают или ошибаются в различных модальностях. Для устранения этого пробела мы представляем MMMR — новый эталонный тест, разработанный для строгой оценки мультимодального рассуждения с явным мышлением. MMMR включает: 1) набор данных высокой сложности, состоящий из 1083 вопросов, охватывающих шесть различных типов рассуждений с символической глубиной и требованиями многошагового анализа, и 2) модульный конвейер оценки следов рассуждения (RTEP) для оценки качества рассуждений за пределами точности с использованием таких метрик, как релевантность, согласованность и структурированные аннотации ошибок. Эмпирические результаты показывают, что MLLMs-T в целом превосходят модели без следов мышления, но даже ведущие модели, такие как Claude-3.7-Sonnet и Gemini-2.5 Pro, страдают от патологий рассуждения, таких как несогласованность и избыточное мышление. Этот эталонный тест выявляет устойчивые разрывы между точностью и качеством рассуждений и предоставляет практический конвейер оценки для будущей разработки моделей. В целом, MMMR предлагает масштабируемую основу для оценки, сравнения и улучшения следующего поколения мультимодальных систем рассуждения.
English
Recent advances in Multi-Modal Large Language Models (MLLMs) have enabled
unified processing of language, vision, and structured inputs, opening the door
to complex tasks such as logical deduction, spatial reasoning, and scientific
analysis. Despite their promise, the reasoning capabilities of MLLMs,
particularly those augmented with intermediate thinking traces (MLLMs-T),
remain poorly understood and lack standardized evaluation benchmarks. Existing
work focuses primarily on perception or final answer correctness, offering
limited insight into how models reason or fail across modalities. To address
this gap, we introduce the MMMR, a new benchmark designed to rigorously
evaluate multi-modal reasoning with explicit thinking. The MMMR comprises 1) a
high-difficulty dataset of 1,083 questions spanning six diverse reasoning types
with symbolic depth and multi-hop demands and 2) a modular Reasoning Trace
Evaluation Pipeline (RTEP) for assessing reasoning quality beyond accuracy
through metrics like relevance, consistency, and structured error annotations.
Empirical results show that MLLMs-T overall outperform non-thinking
counterparts, but even top models like Claude-3.7-Sonnet and Gemini-2.5 Pro
suffer from reasoning pathologies such as inconsistency and overthinking. This
benchmark reveals persistent gaps between accuracy and reasoning quality and
provides an actionable evaluation pipeline for future model development.
Overall, the MMMR offers a scalable foundation for evaluating, comparing, and
improving the next generation of multi-modal reasoning systems.Summary
AI-Generated Summary