We-Math: Il vostro modello multimodale di grandi dimensioni raggiunge un ragionamento matematico simile a quello umano?
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
July 1, 2024
Autori: Runqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang
cs.AI
Abstract
Il ragionamento matematico visivo, come abilità fondamentale di ragionamento visivo, ha ricevuto ampia attenzione dalla comunità dei Large Multimodal Models (LMM). I benchmark esistenti, come MathVista e MathVerse, si concentrano maggiormente sulle prestazioni orientate ai risultati, trascurando i principi sottostanti nell'acquisizione e generalizzazione della conoscenza. Ispirati dal ragionamento matematico umano, introduciamo WE-MATH, il primo benchmark specificamente progettato per esplorare i principi di risoluzione dei problemi oltre le prestazioni end-to-end. Abbiamo meticolosamente raccolto e categorizzato 6.5K problemi di matematica visiva, che coprono 67 concetti di conoscenza gerarchici e cinque livelli di granularità della conoscenza. Scomponiamo i problemi compositi in sottoproblemi in base ai concetti di conoscenza richiesti e introduciamo una nuova metrica quadridimensionale, ovvero Conoscenza Insufficiente (IK), Generalizzazione Inadeguata (IG), Padronanza Completa (CM) e Memorizzazione Meccanica (RM), per valutare gerarchicamente i problemi intrinseci nel processo di ragionamento degli LMM. Con WE-MATH, conduciamo una valutazione approfondita degli LMM esistenti nel ragionamento matematico visivo e riveliamo una correlazione negativa tra i passaggi di risoluzione e le prestazioni specifiche del problema. Confermiamo che il problema IK degli LMM può essere efficacemente migliorato attraverso strategie di ampliamento della conoscenza. Ancora più significativamente, la principale sfida di GPT-4o è passata in modo significativo da IK a IG, stabilendolo come il primo LMM a progredire verso la fase di generalizzazione della conoscenza. Al contrario, altri LMM mostrano una marcata inclinazione verso la Memorizzazione Meccanica: risolvono correttamente problemi compositi che coinvolgono più concetti di conoscenza, ma non riescono a rispondere ai sottoproblemi. Anticipiamo che WE-MATH aprirà nuove strade per i progressi nel ragionamento matematico visivo per gli LMM. I dati di WE-MATH e il codice di valutazione sono disponibili su https://github.com/We-Math/We-Math.
English
Visual mathematical reasoning, as a fundamental visual reasoning ability, has
received widespread attention from the Large Multimodal Models (LMMs)
community. Existing benchmarks, such as MathVista and MathVerse, focus more on
the result-oriented performance but neglect the underlying principles in
knowledge acquisition and generalization. Inspired by human-like mathematical
reasoning, we introduce WE-MATH, the first benchmark specifically designed to
explore the problem-solving principles beyond end-to-end performance. We
meticulously collect and categorize 6.5K visual math problems, spanning 67
hierarchical knowledge concepts and five layers of knowledge granularity. We
decompose composite problems into sub-problems according to the required
knowledge concepts and introduce a novel four-dimensional metric, namely
Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery
(CM), and Rote Memorization (RM), to hierarchically assess inherent issues in
LMMs' reasoning process. With WE-MATH, we conduct a thorough evaluation of
existing LMMs in visual mathematical reasoning and reveal a negative
correlation between solving steps and problem-specific performance. We confirm
the IK issue of LMMs can be effectively improved via knowledge augmentation
strategies. More notably, the primary challenge of GPT-4o has significantly
transitioned from IK to IG, establishing it as the first LMM advancing towards
the knowledge generalization stage. In contrast, other LMMs exhibit a marked
inclination towards Rote Memorization - they correctly solve composite problems
involving multiple knowledge concepts yet fail to answer sub-problems. We
anticipate that WE-MATH will open new pathways for advancements in visual
mathematical reasoning for LMMs. The WE-MATH data and evaluation code are
available at https://github.com/We-Math/We-Math.