MME-Reasoning: Un Benchmark Completo per il Ragionamento Logico nei MLLM
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs
May 27, 2025
Autori: Jiakang Yuan, Tianshuo Peng, Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue
cs.AI
Abstract
Il ragionamento logico è un aspetto fondamentale dell'intelligenza umana e una capacità essenziale per i modelli linguistici multimodali di grandi dimensioni (MLLM). Nonostante i significativi progressi nel ragionamento multimodale, i benchmark esistenti non riescono a valutare in modo completo le loro capacità di ragionamento a causa della mancanza di una categorizzazione esplicita dei tipi di ragionamento logico e di una comprensione chiara del ragionamento. Per affrontare questi problemi, introduciamo MME-Reasoning, un benchmark completo progettato per valutare la capacità di ragionamento degli MLLM, che copre tutti e tre i tipi di ragionamento (cioè induttivo, deduttivo e abduttivo) nelle sue domande. Abbiamo curato attentamente i dati per garantire che ogni domanda valuti efficacemente la capacità di ragionamento piuttosto che le abilità percettive o l'ampiezza delle conoscenze, e abbiamo esteso i protocolli di valutazione per coprire la valutazione di domande diverse. La nostra valutazione rivela sostanziali limitazioni degli MLLM all'avanguardia quando sottoposti a valutazioni olistiche delle capacità di ragionamento logico. Anche gli MLLM più avanzati mostrano prestazioni limitate nel ragionamento logico completo, con squilibri di prestazione notevoli tra i tipi di ragionamento. Inoltre, abbiamo condotto un'analisi approfondita di approcci come il "modalità di pensiero" e il RL basato su regole, che si ritiene comunemente migliorino le capacità di ragionamento. Questi risultati evidenziano le limitazioni critiche e gli squilibri di prestazione degli attuali MLLM in scenari di ragionamento logico diversificati, fornendo intuizioni complete e sistematiche sulla comprensione e la valutazione delle capacità di ragionamento.
English
Logical reasoning is a fundamental aspect of human intelligence and an
essential capability for multimodal large language models (MLLMs). Despite the
significant advancement in multimodal reasoning, existing benchmarks fail to
comprehensively evaluate their reasoning abilities due to the lack of explicit
categorization for logical reasoning types and an unclear understanding of
reasoning. To address these issues, we introduce MME-Reasoning, a comprehensive
benchmark designed to evaluate the reasoning ability of MLLMs, which covers all
three types of reasoning (i.e., inductive, deductive, and abductive) in its
questions. We carefully curate the data to ensure that each question
effectively evaluates reasoning ability rather than perceptual skills or
knowledge breadth, and extend the evaluation protocols to cover the evaluation
of diverse questions. Our evaluation reveals substantial limitations of
state-of-the-art MLLMs when subjected to holistic assessments of logical
reasoning capabilities. Even the most advanced MLLMs show limited performance
in comprehensive logical reasoning, with notable performance imbalances across
reasoning types. In addition, we conducted an in-depth analysis of approaches
such as ``thinking mode'' and Rule-based RL, which are commonly believed to
enhance reasoning abilities. These findings highlight the critical limitations
and performance imbalances of current MLLMs in diverse logical reasoning
scenarios, providing comprehensive and systematic insights into the
understanding and evaluation of reasoning capabilities.