MMR-Life : Reconstruction de scènes de la vie réelle pour un raisonnement multimodal multi-images

Résumé

Les progrès récents dans les capacités de raisonnement des modèles de langage multimodaux (MLLM) leur ont permis de s'attaquer à des tâches plus complexes telles que l'analyse scientifique et le raisonnement mathématique. Malgré leur potentiel, les capacités de raisonnement des MLLM dans différents scénarios de la vie réelle restent largement inexplorées et manquent de benchmarks standardisés pour leur évaluation. Pour combler cette lacune, nous présentons MMR-Life, un benchmark complet conçu pour évaluer les diverses capacités de raisonnement multimodal multi-images des MLLM dans des scénarios de la vie réelle. MMR-Life se compose de 2 646 questions à choix multiples basées sur 19 108 images principalement issues de contextes réels, couvrant de manière exhaustive sept types de raisonnement : abductif, analogique, causal, déductif, inductif, spatial et temporel. Contrairement aux benchmarks de raisonnement existants, MMR-Life ne repose pas sur une expertise spécifique à un domaine, mais exige plutôt que les modèles intègrent des informations provenant de multiples images et appliquent des capacités de raisonnement diverses. L'évaluation de 37 modèles avancés met en évidence le défi substantiel posé par MMR-Life. Même les meilleurs modèles comme GPT-5 n'atteignent qu'une précision de 58 % et présentent des variances considérables de performance selon les types de raisonnement. De plus, nous analysons les paradigmes de raisonnement des MLLM existants, en explorant comment des facteurs tels que la longueur de la réflexion, la méthode de raisonnement et le type de raisonnement affectent leurs performances. En résumé, MMR-Life établit une base complète pour évaluer, analyser et améliorer la prochaine génération de systèmes de raisonnement multimodal.

English

Recent progress in the reasoning capabilities of multimodal large language models (MLLMs) has empowered them to address more complex tasks such as scientific analysis and mathematical reasoning. Despite their promise, MLLMs' reasoning abilities across different scenarios in real life remain largely unexplored and lack standardized benchmarks for evaluation. To address this gap, we introduce MMR-Life, a comprehensive benchmark designed to evaluate the diverse multimodal multi-image reasoning capabilities of MLLMs across real-life scenarios. MMR-Life consists of 2,646 multiple-choice questions based on 19,108 images primarily sourced from real-world contexts, comprehensively covering seven reasoning types: abductive, analogical, causal, deductive, inductive, spatial, and temporal. Unlike existing reasoning benchmarks, MMR-Life does not rely on domain-specific expertise but instead requires models to integrate information across multiple images and apply diverse reasoning abilities. The evaluation of 37 advanced models highlights the substantial challenge posed by MMR-Life. Even top models like GPT-5 achieve only 58% accuracy and display considerable variance in performance across reasoning types. Moreover, we analyze the reasoning paradigms of existing MLLMs, exploring how factors such as thinking length, reasoning method, and reasoning type affect their performance. In summary, MMR-Life establishes a comprehensive foundation for evaluating, analyzing, and improving the next generation of multimodal reasoning systems.

MMR-Life : Reconstruction de scènes de la vie réelle pour un raisonnement multimodal multi-images

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

Résumé

Support