MMMR: Бенчмаркинг задач массового мультимодального анализа

Аннотация

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили осуществлять унифицированную обработку языковых, визуальных и структурированных данных, открывая путь к решению сложных задач, таких как логический вывод, пространственное рассуждение и научный анализ. Несмотря на их потенциал, способности к рассуждению MLLMs, особенно тех, которые дополнены промежуточными следами мышления (MLLMs-T), остаются плохо изученными и не имеют стандартизированных критериев оценки. Существующие работы в основном сосредоточены на восприятии или правильности конечного ответа, что дает ограниченное представление о том, как модели рассуждают или ошибаются в различных модальностях. Для устранения этого пробела мы представляем MMMR — новый эталонный тест, разработанный для строгой оценки мультимодального рассуждения с явным мышлением. MMMR включает: 1) набор данных высокой сложности, состоящий из 1083 вопросов, охватывающих шесть различных типов рассуждений с символической глубиной и требованиями многошагового анализа, и 2) модульный конвейер оценки следов рассуждения (RTEP) для оценки качества рассуждений за пределами точности с использованием таких метрик, как релевантность, согласованность и структурированные аннотации ошибок. Эмпирические результаты показывают, что MLLMs-T в целом превосходят модели без следов мышления, но даже ведущие модели, такие как Claude-3.7-Sonnet и Gemini-2.5 Pro, страдают от патологий рассуждения, таких как несогласованность и избыточное мышление. Этот эталонный тест выявляет устойчивые разрывы между точностью и качеством рассуждений и предоставляет практический конвейер оценки для будущей разработки моделей. В целом, MMMR предлагает масштабируемую основу для оценки, сравнения и улучшения следующего поколения мультимодальных систем рассуждения.

English

Recent advances in Multi-Modal Large Language Models (MLLMs) have enabled unified processing of language, vision, and structured inputs, opening the door to complex tasks such as logical deduction, spatial reasoning, and scientific analysis. Despite their promise, the reasoning capabilities of MLLMs, particularly those augmented with intermediate thinking traces (MLLMs-T), remain poorly understood and lack standardized evaluation benchmarks. Existing work focuses primarily on perception or final answer correctness, offering limited insight into how models reason or fail across modalities. To address this gap, we introduce the MMMR, a new benchmark designed to rigorously evaluate multi-modal reasoning with explicit thinking. The MMMR comprises 1) a high-difficulty dataset of 1,083 questions spanning six diverse reasoning types with symbolic depth and multi-hop demands and 2) a modular Reasoning Trace Evaluation Pipeline (RTEP) for assessing reasoning quality beyond accuracy through metrics like relevance, consistency, and structured error annotations. Empirical results show that MLLMs-T overall outperform non-thinking counterparts, but even top models like Claude-3.7-Sonnet and Gemini-2.5 Pro suffer from reasoning pathologies such as inconsistency and overthinking. This benchmark reveals persistent gaps between accuracy and reasoning quality and provides an actionable evaluation pipeline for future model development. Overall, the MMMR offers a scalable foundation for evaluating, comparing, and improving the next generation of multi-modal reasoning systems.

MMMR: Бенчмаркинг задач массового мультимодального анализа

MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks

Аннотация

Support