We-Math: Il vostro modello multimodale di grandi dimensioni raggiunge un ragionamento matematico simile a quello umano?

Abstract

Il ragionamento matematico visivo, come abilità fondamentale di ragionamento visivo, ha ricevuto ampia attenzione dalla comunità dei Large Multimodal Models (LMM). I benchmark esistenti, come MathVista e MathVerse, si concentrano maggiormente sulle prestazioni orientate ai risultati, trascurando i principi sottostanti nell'acquisizione e generalizzazione della conoscenza. Ispirati dal ragionamento matematico umano, introduciamo WE-MATH, il primo benchmark specificamente progettato per esplorare i principi di risoluzione dei problemi oltre le prestazioni end-to-end. Abbiamo meticolosamente raccolto e categorizzato 6.5K problemi di matematica visiva, che coprono 67 concetti di conoscenza gerarchici e cinque livelli di granularità della conoscenza. Scomponiamo i problemi compositi in sottoproblemi in base ai concetti di conoscenza richiesti e introduciamo una nuova metrica quadridimensionale, ovvero Conoscenza Insufficiente (IK), Generalizzazione Inadeguata (IG), Padronanza Completa (CM) e Memorizzazione Meccanica (RM), per valutare gerarchicamente i problemi intrinseci nel processo di ragionamento degli LMM. Con WE-MATH, conduciamo una valutazione approfondita degli LMM esistenti nel ragionamento matematico visivo e riveliamo una correlazione negativa tra i passaggi di risoluzione e le prestazioni specifiche del problema. Confermiamo che il problema IK degli LMM può essere efficacemente migliorato attraverso strategie di ampliamento della conoscenza. Ancora più significativamente, la principale sfida di GPT-4o è passata in modo significativo da IK a IG, stabilendolo come il primo LMM a progredire verso la fase di generalizzazione della conoscenza. Al contrario, altri LMM mostrano una marcata inclinazione verso la Memorizzazione Meccanica: risolvono correttamente problemi compositi che coinvolgono più concetti di conoscenza, ma non riescono a rispondere ai sottoproblemi. Anticipiamo che WE-MATH aprirà nuove strade per i progressi nel ragionamento matematico visivo per gli LMM. I dati di WE-MATH e il codice di valutazione sono disponibili su https://github.com/We-Math/We-Math.

English

Visual mathematical reasoning, as a fundamental visual reasoning ability, has received widespread attention from the Large Multimodal Models (LMMs) community. Existing benchmarks, such as MathVista and MathVerse, focus more on the result-oriented performance but neglect the underlying principles in knowledge acquisition and generalization. Inspired by human-like mathematical reasoning, we introduce WE-MATH, the first benchmark specifically designed to explore the problem-solving principles beyond end-to-end performance. We meticulously collect and categorize 6.5K visual math problems, spanning 67 hierarchical knowledge concepts and five layers of knowledge granularity. We decompose composite problems into sub-problems according to the required knowledge concepts and introduce a novel four-dimensional metric, namely Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery (CM), and Rote Memorization (RM), to hierarchically assess inherent issues in LMMs' reasoning process. With WE-MATH, we conduct a thorough evaluation of existing LMMs in visual mathematical reasoning and reveal a negative correlation between solving steps and problem-specific performance. We confirm the IK issue of LMMs can be effectively improved via knowledge augmentation strategies. More notably, the primary challenge of GPT-4o has significantly transitioned from IK to IG, establishing it as the first LMM advancing towards the knowledge generalization stage. In contrast, other LMMs exhibit a marked inclination towards Rote Memorization - they correctly solve composite problems involving multiple knowledge concepts yet fail to answer sub-problems. We anticipate that WE-MATH will open new pathways for advancements in visual mathematical reasoning for LMMs. The WE-MATH data and evaluation code are available at https://github.com/We-Math/We-Math.

We-Math: Il vostro modello multimodale di grandi dimensioni raggiunge un ragionamento matematico simile a quello umano?

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

Abstract

Support