MMMR: 대규모 다중 모달 추론 과제 벤치마킹
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks
May 22, 2025
저자: Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun
cs.AI
초록
최근 멀티모달 대형 언어 모델(MLLMs)의 발전으로 언어, 시각, 구조화된 입력의 통합 처리가 가능해지면서 논리적 추론, 공간적 사고, 과학적 분석과 같은 복잡한 과제에 대한 가능성이 열렸다. 그러나 이러한 잠재력에도 불구하고, 특히 중간 사고 흔적이 추가된 MLLMs-T의 추론 능력은 여전히 잘 이해되지 않고 있으며, 표준화된 평가 벤치마크가 부족한 실정이다. 기존 연구는 주로 지각 또는 최종 답변의 정확성에 초점을 맞추고 있어, 모델이 다양한 모달리티에서 어떻게 추론하거나 실패하는지에 대한 통찰력이 제한적이다. 이러한 격차를 해결하기 위해, 우리는 명시적 사고를 통한 멀티모달 추론을 엄격하게 평가하기 위한 새로운 벤치마크인 MMMR을 소개한다. MMMR은 1) 상징적 깊이와 다중 홉 요구 사항을 가진 여섯 가지 다양한 추론 유형을 아우르는 1,083개의 고난이도 질문 데이터셋과 2) 정확성 이상의 추론 품질을 관련성, 일관성, 구조화된 오류 주석과 같은 메트릭을 통해 평가하기 위한 모듈식 추론 흔적 평가 파이프라인(RTEP)으로 구성된다. 실험 결과, MLLMs-T는 전반적으로 사고 흔적이 없는 모델보다 우수한 성능을 보였지만, Claude-3.7-Sonnet 및 Gemini-2.5 Pro와 같은 최상위 모델조차도 불일치 및 과도한 사고와 같은 추론 병리 현상을 겪는 것으로 나타났다. 이 벤치마크는 정확성과 추론 품질 사이의 지속적인 격차를 드러내며, 향후 모델 개발을 위한 실행 가능한 평가 파이프라인을 제공한다. 전반적으로, MMMR은 차세대 멀티모달 추론 시스템을 평가, 비교 및 개선하기 위한 확장 가능한 기반을 제공한다.
English
Recent advances in Multi-Modal Large Language Models (MLLMs) have enabled
unified processing of language, vision, and structured inputs, opening the door
to complex tasks such as logical deduction, spatial reasoning, and scientific
analysis. Despite their promise, the reasoning capabilities of MLLMs,
particularly those augmented with intermediate thinking traces (MLLMs-T),
remain poorly understood and lack standardized evaluation benchmarks. Existing
work focuses primarily on perception or final answer correctness, offering
limited insight into how models reason or fail across modalities. To address
this gap, we introduce the MMMR, a new benchmark designed to rigorously
evaluate multi-modal reasoning with explicit thinking. The MMMR comprises 1) a
high-difficulty dataset of 1,083 questions spanning six diverse reasoning types
with symbolic depth and multi-hop demands and 2) a modular Reasoning Trace
Evaluation Pipeline (RTEP) for assessing reasoning quality beyond accuracy
through metrics like relevance, consistency, and structured error annotations.
Empirical results show that MLLMs-T overall outperform non-thinking
counterparts, but even top models like Claude-3.7-Sonnet and Gemini-2.5 Pro
suffer from reasoning pathologies such as inconsistency and overthinking. This
benchmark reveals persistent gaps between accuracy and reasoning quality and
provides an actionable evaluation pipeline for future model development.
Overall, the MMMR offers a scalable foundation for evaluating, comparing, and
improving the next generation of multi-modal reasoning systems.Summary
AI-Generated Summary