MMR-Life: Ricomporre scene della vita reale per il ragionamento multimodale su immagini multiple

Abstract

I recenti progressi nelle capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno permesso loro di affrontare compiti più complessi come l'analisi scientifica e il ragionamento matematico. Nonostante le loro potenzialità, le capacità di ragionamento degli MLLM in diversi scenari della vita reale rimangono in gran parte inesplorate e mancano di benchmark standardizzati per la valutazione. Per colmare questa lacuna, introduciamo MMR-Life, un benchmark completo progettato per valutare le diverse capacità di ragionamento multimodale su immagini multiple degli MLLM in scenari di vita reale. MMR-Life consiste in 2.646 domande a scelta multipla basate su 19.108 immagini provenienti principalmente da contesti del mondo reale, che coprono in modo completo sette tipi di ragionamento: abduttivo, analogico, causale, deduttivo, induttivo, spaziale e temporale. A differenza dei benchmark di ragionamento esistenti, MMR-Life non si basa su competenze specifiche di dominio, ma richiede invece ai modelli di integrare le informazioni tra più immagini e applicare diverse capacità di ragionamento. La valutazione di 37 modelli avanzati evidenzia la notevole sfida rappresentata da MMR-Life. Anche i modelli più performanti come GPT-5 raggiungono solo il 58% di accuratezza e mostrano una variazione considerevole nelle prestazioni tra i diversi tipi di ragionamento. Inoltre, analizziamo i paradigmi di ragionamento degli MLLM esistenti, esplorando come fattori quali la lunghezza del pensiero, il metodo di ragionamento e il tipo di ragionamento influenzino le loro prestazioni. In sintesi, MMR-Life stabilisce una base completa per valutare, analizzare e migliorare la prossima generazione di sistemi di ragionamento multimodale.

English

Recent progress in the reasoning capabilities of multimodal large language models (MLLMs) has empowered them to address more complex tasks such as scientific analysis and mathematical reasoning. Despite their promise, MLLMs' reasoning abilities across different scenarios in real life remain largely unexplored and lack standardized benchmarks for evaluation. To address this gap, we introduce MMR-Life, a comprehensive benchmark designed to evaluate the diverse multimodal multi-image reasoning capabilities of MLLMs across real-life scenarios. MMR-Life consists of 2,646 multiple-choice questions based on 19,108 images primarily sourced from real-world contexts, comprehensively covering seven reasoning types: abductive, analogical, causal, deductive, inductive, spatial, and temporal. Unlike existing reasoning benchmarks, MMR-Life does not rely on domain-specific expertise but instead requires models to integrate information across multiple images and apply diverse reasoning abilities. The evaluation of 37 advanced models highlights the substantial challenge posed by MMR-Life. Even top models like GPT-5 achieve only 58% accuracy and display considerable variance in performance across reasoning types. Moreover, we analyze the reasoning paradigms of existing MLLMs, exploring how factors such as thinking length, reasoning method, and reasoning type affect their performance. In summary, MMR-Life establishes a comprehensive foundation for evaluating, analyzing, and improving the next generation of multimodal reasoning systems.

MMR-Life: Ricomporre scene della vita reale per il ragionamento multimodale su immagini multiple

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

Abstract

Support