MMR-Life: Zusammensetzung realer Szenen für multimodale Mehrbilder-Analyse

Zusammenfassung

Jüngste Fortschritte in den reasoning-Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) haben es ihnen ermöglicht, komplexere Aufgaben wie wissenschaftliche Analysen und mathematisches Reasoning zu bewältigen. Trotz ihres Potenzials sind die Reasoning-Fähigkeiten von MLLMs in verschiedenen realen Lebensszenarien weitgehend unerforscht und es mangelt an standardisierten Benchmarks für die Bewertung. Um diese Lücke zu schließen, stellen wir MMR-Life vor, einen umfassenden Benchmark, der entwickelt wurde, um die vielfältigen multimodalen Multi-Image-Reasoning-Fähigkeiten von MLLMs in realen Lebensszenarien zu evaluieren. MMR-Life besteht aus 2.646 Multiple-Choice-Fragen, basierend auf 19.108 Bildern, die hauptsächlich aus realen Kontexten stammen, und deckt umfassend sieben Reasoning-Typen ab: abduktiv, analog, kausal, deduktiv, induktiv, räumlich und temporal. Im Gegensatz zu bestehenden Reasoning-Benchmarks stützt sich MMR-Life nicht auf domänenspezifisches Fachwissen, sondern erfordert von den Modellen, Informationen über mehrere Bilder hinweg zu integrieren und verschiedene Reasoning-Fähigkeiten anzuwenden. Die Evaluation von 37 fortschrittlichen Modellen unterstreicht die erhebliche Herausforderung, die MMR-Life darstellt. Selbst Spitzenmodelle wie GPT-5 erreichen nur eine Genauigkeit von 58 % und zeigen erhebliche Leistungsunterschiede zwischen den Reasoning-Typen. Darüber hinaus analysieren wir die Reasoning-Paradigmen bestehender MLLMs und untersuchen, wie Faktoren wie Denklänge, Reasoning-Methode und Reasoning-Typ ihre Leistung beeinflussen. Zusammenfassend bildet MMR-Life eine umfassende Grundlage für die Bewertung, Analyse und Verbesserung der nächsten Generation multimodaler Reasoning-Systeme.

English

Recent progress in the reasoning capabilities of multimodal large language models (MLLMs) has empowered them to address more complex tasks such as scientific analysis and mathematical reasoning. Despite their promise, MLLMs' reasoning abilities across different scenarios in real life remain largely unexplored and lack standardized benchmarks for evaluation. To address this gap, we introduce MMR-Life, a comprehensive benchmark designed to evaluate the diverse multimodal multi-image reasoning capabilities of MLLMs across real-life scenarios. MMR-Life consists of 2,646 multiple-choice questions based on 19,108 images primarily sourced from real-world contexts, comprehensively covering seven reasoning types: abductive, analogical, causal, deductive, inductive, spatial, and temporal. Unlike existing reasoning benchmarks, MMR-Life does not rely on domain-specific expertise but instead requires models to integrate information across multiple images and apply diverse reasoning abilities. The evaluation of 37 advanced models highlights the substantial challenge posed by MMR-Life. Even top models like GPT-5 achieve only 58% accuracy and display considerable variance in performance across reasoning types. Moreover, we analyze the reasoning paradigms of existing MLLMs, exploring how factors such as thinking length, reasoning method, and reasoning type affect their performance. In summary, MMR-Life establishes a comprehensive foundation for evaluating, analyzing, and improving the next generation of multimodal reasoning systems.

MMR-Life: Zusammensetzung realer Szenen für multimodale Mehrbilder-Analyse

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

Zusammenfassung

Support