MMR-Life: Montando Cenas da Vida Real para Raciocínio Multimodal com Múltiplas Imagens
MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning
March 2, 2026
Autores: Jiachun Li, Shaoping Huang, Zhuoran Jin, Chenlong Zhang, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Resumo
Os recentes avanços nas capacidades de raciocínio dos modelos de linguagem multimodal de grande porte (MLLMs) têm capacitado esses modelos a lidar com tarefas mais complexas, como análise científica e raciocínio matemático. Apesar do seu potencial, as habilidades de raciocínio dos MLLMs em diferentes cenários da vida real permanecem amplamente inexploradas e carecem de benchmarks padronizados para avaliação. Para preencher essa lacuna, apresentamos o MMR-Life, um benchmark abrangente projetado para avaliar as diversas capacidades de raciocínio multimodal e multi-imagem dos MLLMs em cenários da vida real. O MMR-Life consiste em 2.646 questões de múltipla escolha baseadas em 19.108 imagens provenientes principalmente de contextos do mundo real, cobrindo de forma abrangente sete tipos de raciocínio: abdutivo, analógico, causal, dedutivo, indutivo, espacial e temporal. Diferente dos benchmarks de raciocínio existentes, o MMR-Life não depende de conhecimentos específicos de domínio, mas exige que os modelos integrem informações através de múltiplas imagens e apliquem diversas habilidades de raciocínio. A avaliação de 37 modelos avançados destaca o desafio substancial representado pelo MMR-Life. Mesmo os modelos mais avançados, como o GPT-5, alcançam apenas 58% de precisão e exibem uma variação considerável no desempenho entre os diferentes tipos de raciocínio. Além disso, analisamos os paradigmas de raciocínio dos MLLMs existentes, explorando como fatores como a extensão do pensamento, o método de raciocínio e o tipo de raciocínio afetam o seu desempenho. Em resumo, o MMR-Life estabelece uma base abrangente para avaliar, analisar e melhorar a próxima geração de sistemas de raciocínio multimodal.
English
Recent progress in the reasoning capabilities of multimodal large language models (MLLMs) has empowered them to address more complex tasks such as scientific analysis and mathematical reasoning. Despite their promise, MLLMs' reasoning abilities across different scenarios in real life remain largely unexplored and lack standardized benchmarks for evaluation. To address this gap, we introduce MMR-Life, a comprehensive benchmark designed to evaluate the diverse multimodal multi-image reasoning capabilities of MLLMs across real-life scenarios. MMR-Life consists of 2,646 multiple-choice questions based on 19,108 images primarily sourced from real-world contexts, comprehensively covering seven reasoning types: abductive, analogical, causal, deductive, inductive, spatial, and temporal. Unlike existing reasoning benchmarks, MMR-Life does not rely on domain-specific expertise but instead requires models to integrate information across multiple images and apply diverse reasoning abilities. The evaluation of 37 advanced models highlights the substantial challenge posed by MMR-Life. Even top models like GPT-5 achieve only 58% accuracy and display considerable variance in performance across reasoning types. Moreover, we analyze the reasoning paradigms of existing MLLMs, exploring how factors such as thinking length, reasoning method, and reasoning type affect their performance. In summary, MMR-Life establishes a comprehensive foundation for evaluating, analyzing, and improving the next generation of multimodal reasoning systems.