ChatPaper.aiChatPaper

MMR-Life: 실제 생활 장면을 조합한 다중 이미지 기반 멀티모달 추론

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

March 2, 2026
저자: Jiachun Li, Shaoping Huang, Zhuoran Jin, Chenlong Zhang, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)의 추론 능력에 대한 최근 발전은 과학적 분석 및 수학적 추론과 같은 더 복잡한 작업을 해결할 수 있는 가능성을 열었습니다. 이러한 잠재력에도 불구하고, 실제 생활의 다양한 시나리오에서 MLLM의 추론 능력은 대부분 탐구되지 않았으며 표준화된 평가 벤치마크가 부족한 실정입니다. 이러한 격차를 해결하기 위해 본 연구에서는 실제 생활 시나리오에서 MLLM의 다양한 멀티모달 다중 이미지 추론 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 MMR-Life를 소개합니다. MMR-Life는 주로 실제 상황에서 수집된 19,108개의 이미지를 기반으로 한 2,646개의 객관식 문제로 구성되며, 귀납적, 유추적, 인과적, 연역적, 귀납적, 공간적, 시간적 추론 등 일곱 가지 추론 유형을 포괄적으로 다룹니다. 기존 추론 벤치마크와 달리, MMR-Life는 특정 도메인 전문 지식에 의존하지 않으며 대신 모델이 여러 이미지에 걸쳐 정보를 통합하고 다양한 추론 능력을 적용할 것을 요구합니다. 37개의 최첨단 모델에 대한 평가 결과는 MMR-Life가 제기하는 상당한 과제를 부각시킵니다. GPT-5와 같은 최상위 모델조차 58%의 정확도만 달성하며 추론 유형 간 성능 편차가 큰 것으로 나타났습니다. 또한, 기존 MLLM의 추론 패러다임을 분석하여 사고 길이, 추론 방법, 추론 유형과 같은 요소가 성능에 어떤 영향을 미치는지 탐구합니다. 요약하면, MMR-Life는 차세대 멀티모달 추론 시스템의 평가, 분석 및 개선을 위한 포괄적인 기반을 마련합니다.
English
Recent progress in the reasoning capabilities of multimodal large language models (MLLMs) has empowered them to address more complex tasks such as scientific analysis and mathematical reasoning. Despite their promise, MLLMs' reasoning abilities across different scenarios in real life remain largely unexplored and lack standardized benchmarks for evaluation. To address this gap, we introduce MMR-Life, a comprehensive benchmark designed to evaluate the diverse multimodal multi-image reasoning capabilities of MLLMs across real-life scenarios. MMR-Life consists of 2,646 multiple-choice questions based on 19,108 images primarily sourced from real-world contexts, comprehensively covering seven reasoning types: abductive, analogical, causal, deductive, inductive, spatial, and temporal. Unlike existing reasoning benchmarks, MMR-Life does not rely on domain-specific expertise but instead requires models to integrate information across multiple images and apply diverse reasoning abilities. The evaluation of 37 advanced models highlights the substantial challenge posed by MMR-Life. Even top models like GPT-5 achieve only 58% accuracy and display considerable variance in performance across reasoning types. Moreover, we analyze the reasoning paradigms of existing MLLMs, exploring how factors such as thinking length, reasoning method, and reasoning type affect their performance. In summary, MMR-Life establishes a comprehensive foundation for evaluating, analyzing, and improving the next generation of multimodal reasoning systems.
PDF371March 4, 2026