ChatPaper.aiChatPaper

We-Math: Il vostro modello multimodale di grandi dimensioni raggiunge un ragionamento matematico simile a quello umano?

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

July 1, 2024
Autori: Runqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang
cs.AI

Abstract

Il ragionamento matematico visivo, come abilità fondamentale di ragionamento visivo, ha ricevuto ampia attenzione dalla comunità dei Large Multimodal Models (LMM). I benchmark esistenti, come MathVista e MathVerse, si concentrano maggiormente sulle prestazioni orientate ai risultati, trascurando i principi sottostanti nell'acquisizione e generalizzazione della conoscenza. Ispirati dal ragionamento matematico umano, introduciamo WE-MATH, il primo benchmark specificamente progettato per esplorare i principi di risoluzione dei problemi oltre le prestazioni end-to-end. Abbiamo meticolosamente raccolto e categorizzato 6.5K problemi di matematica visiva, che coprono 67 concetti di conoscenza gerarchici e cinque livelli di granularità della conoscenza. Scomponiamo i problemi compositi in sottoproblemi in base ai concetti di conoscenza richiesti e introduciamo una nuova metrica quadridimensionale, ovvero Conoscenza Insufficiente (IK), Generalizzazione Inadeguata (IG), Padronanza Completa (CM) e Memorizzazione Meccanica (RM), per valutare gerarchicamente i problemi intrinseci nel processo di ragionamento degli LMM. Con WE-MATH, conduciamo una valutazione approfondita degli LMM esistenti nel ragionamento matematico visivo e riveliamo una correlazione negativa tra i passaggi di risoluzione e le prestazioni specifiche del problema. Confermiamo che il problema IK degli LMM può essere efficacemente migliorato attraverso strategie di ampliamento della conoscenza. Ancora più significativamente, la principale sfida di GPT-4o è passata in modo significativo da IK a IG, stabilendolo come il primo LMM a progredire verso la fase di generalizzazione della conoscenza. Al contrario, altri LMM mostrano una marcata inclinazione verso la Memorizzazione Meccanica: risolvono correttamente problemi compositi che coinvolgono più concetti di conoscenza, ma non riescono a rispondere ai sottoproblemi. Anticipiamo che WE-MATH aprirà nuove strade per i progressi nel ragionamento matematico visivo per gli LMM. I dati di WE-MATH e il codice di valutazione sono disponibili su https://github.com/We-Math/We-Math.
English
Visual mathematical reasoning, as a fundamental visual reasoning ability, has received widespread attention from the Large Multimodal Models (LMMs) community. Existing benchmarks, such as MathVista and MathVerse, focus more on the result-oriented performance but neglect the underlying principles in knowledge acquisition and generalization. Inspired by human-like mathematical reasoning, we introduce WE-MATH, the first benchmark specifically designed to explore the problem-solving principles beyond end-to-end performance. We meticulously collect and categorize 6.5K visual math problems, spanning 67 hierarchical knowledge concepts and five layers of knowledge granularity. We decompose composite problems into sub-problems according to the required knowledge concepts and introduce a novel four-dimensional metric, namely Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery (CM), and Rote Memorization (RM), to hierarchically assess inherent issues in LMMs' reasoning process. With WE-MATH, we conduct a thorough evaluation of existing LMMs in visual mathematical reasoning and reveal a negative correlation between solving steps and problem-specific performance. We confirm the IK issue of LMMs can be effectively improved via knowledge augmentation strategies. More notably, the primary challenge of GPT-4o has significantly transitioned from IK to IG, establishing it as the first LMM advancing towards the knowledge generalization stage. In contrast, other LMMs exhibit a marked inclination towards Rote Memorization - they correctly solve composite problems involving multiple knowledge concepts yet fail to answer sub-problems. We anticipate that WE-MATH will open new pathways for advancements in visual mathematical reasoning for LMMs. The WE-MATH data and evaluation code are available at https://github.com/We-Math/We-Math.
PDF819November 28, 2024