MMR-Life: Reconstrucción de Escenas de la Vida Real para el Razonamiento Multimodal con Múltiples Imágenes

Resumen

Los recientes avances en las capacidades de razonamiento de los modelos lingüísticos multimodales grandes (MLLMs) les han permitido abordar tareas más complejas como el análisis científico y el razonamiento matemático. A pesar de su potencial, las habilidades de razonamiento de los MLLMs en diferentes escenarios de la vida real siguen siendo en gran medida inexploradas y carecen de puntos de referencia estandarizados para su evaluación. Para abordar esta brecha, presentamos MMR-Life, un punto de referencia integral diseñado para evaluar las diversas capacidades de razonamiento multimodal con múltiples imágenes de los MLLMs en escenarios de la vida real. MMR-Life consta de 2.646 preguntas de opción múltiple basadas en 19.108 imágenes obtenidas principalmente de contextos del mundo real, cubriendo exhaustivamente siete tipos de razonamiento: abductivo, analógico, causal, deductivo, inductivo, espacial y temporal. A diferencia de los puntos de referencia de razonamiento existentes, MMR-Life no depende de conocimientos especializados de dominio específico, sino que requiere que los modelos integren información a través de múltiples imágenes y apliquen diversas habilidades de razonamiento. La evaluación de 37 modelos avanzados resalta el desafío sustancial que representa MMR-Life. Incluso los mejores modelos como GPT-5 logran solo un 58% de precisión y muestran una variación considerable en el rendimiento entre los tipos de razonamiento. Además, analizamos los paradigmas de razonamiento de los MLLMs existentes, explorando cómo factores como la longitud del pensamiento, el método de razonamiento y el tipo de razonamiento afectan su rendimiento. En resumen, MMR-Life establece una base integral para evaluar, analizar y mejorar la próxima generación de sistemas de razonamiento multimodal.

English

Recent progress in the reasoning capabilities of multimodal large language models (MLLMs) has empowered them to address more complex tasks such as scientific analysis and mathematical reasoning. Despite their promise, MLLMs' reasoning abilities across different scenarios in real life remain largely unexplored and lack standardized benchmarks for evaluation. To address this gap, we introduce MMR-Life, a comprehensive benchmark designed to evaluate the diverse multimodal multi-image reasoning capabilities of MLLMs across real-life scenarios. MMR-Life consists of 2,646 multiple-choice questions based on 19,108 images primarily sourced from real-world contexts, comprehensively covering seven reasoning types: abductive, analogical, causal, deductive, inductive, spatial, and temporal. Unlike existing reasoning benchmarks, MMR-Life does not rely on domain-specific expertise but instead requires models to integrate information across multiple images and apply diverse reasoning abilities. The evaluation of 37 advanced models highlights the substantial challenge posed by MMR-Life. Even top models like GPT-5 achieve only 58% accuracy and display considerable variance in performance across reasoning types. Moreover, we analyze the reasoning paradigms of existing MLLMs, exploring how factors such as thinking length, reasoning method, and reasoning type affect their performance. In summary, MMR-Life establishes a comprehensive foundation for evaluating, analyzing, and improving the next generation of multimodal reasoning systems.

MMR-Life: Reconstrucción de Escenas de la Vida Real para el Razonamiento Multimodal con Múltiples Imágenes

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

Resumen

Support