MMR-Life: Сборка реальных сцен для мультимодального анализа множественных изображений

Аннотация

Последние достижения в области развития способностей к рассуждению у мультимодальных больших языковых моделей (МБЯМ) позволили им решать более сложные задачи, такие как научный анализ и математические рассуждения. Несмотря на перспективность, способности МБЯМ к рассуждениям в различных сценариях реальной жизни остаются в значительной степени неисследованными и не имеют стандартизированных бенчмарков для оценки. Чтобы восполнить этот пробел, мы представляем MMR-Life — комплексный бенчмарк, разработанный для оценки разнообразных способностей МБЯМ к мультимодальным рассуждениям на основе нескольких изображений в реальных жизненных сценариях. MMR-Life состоит из 2646 вопросов с множественным выбором, основанных на 19 108 изображениях, полученных преимущественно из реального контекста, и всесторонне охватывает семь типов рассуждений: абдуктивные, аналогические, каузальные, дедуктивные, индуктивные, пространственные и временные. В отличие от существующих бенчмарков на рассуждения, MMR-Life не опирается на узкоспециальные знания, а вместо этого требует от моделей интегрировать информацию из нескольких изображений и применять различные способности к рассуждению. Оценка 37 передовых моделей демонстрирует, что MMR-Life представляет собой серьезную challenge-задачу. Даже лучшие модели, такие как GPT-5, достигают точности лишь 58% и демонстрируют значительный разброс в производительности между разными типами рассуждений. Более того, мы анализируем парадигмы рассуждений существующих МБЯМ, исследуя, как такие факторы, как длина размышления, метод рассуждения и тип рассуждения, влияют на их производительность. В итоге, MMR-Life закладывает всестороннюю основу для оценки, анализа и совершенствования следующего поколения мультимодальных систем рассуждений.

English

Recent progress in the reasoning capabilities of multimodal large language models (MLLMs) has empowered them to address more complex tasks such as scientific analysis and mathematical reasoning. Despite their promise, MLLMs' reasoning abilities across different scenarios in real life remain largely unexplored and lack standardized benchmarks for evaluation. To address this gap, we introduce MMR-Life, a comprehensive benchmark designed to evaluate the diverse multimodal multi-image reasoning capabilities of MLLMs across real-life scenarios. MMR-Life consists of 2,646 multiple-choice questions based on 19,108 images primarily sourced from real-world contexts, comprehensively covering seven reasoning types: abductive, analogical, causal, deductive, inductive, spatial, and temporal. Unlike existing reasoning benchmarks, MMR-Life does not rely on domain-specific expertise but instead requires models to integrate information across multiple images and apply diverse reasoning abilities. The evaluation of 37 advanced models highlights the substantial challenge posed by MMR-Life. Even top models like GPT-5 achieve only 58% accuracy and display considerable variance in performance across reasoning types. Moreover, we analyze the reasoning paradigms of existing MLLMs, exploring how factors such as thinking length, reasoning method, and reasoning type affect their performance. In summary, MMR-Life establishes a comprehensive foundation for evaluating, analyzing, and improving the next generation of multimodal reasoning systems.

MMR-Life: Сборка реальных сцен для мультимодального анализа множественных изображений

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

Аннотация

Support