We-Math : Votre modèle multimodal de grande taille atteint-il un raisonnement mathématique similaire à celui des humains ?
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
July 1, 2024
Auteurs: Runqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang
cs.AI
Résumé
Le raisonnement mathématique visuel, en tant que capacité fondamentale de raisonnement visuel, a suscité une attention considérable de la part de la communauté des modèles multimodaux de grande taille (LMMs). Les benchmarks existants, tels que MathVista et MathVerse, se concentrent davantage sur les performances orientées résultats, mais négligent les principes sous-jacents dans l'acquisition et la généralisation des connaissances. Inspirés par le raisonnement mathématique humain, nous introduisons WE-MATH, le premier benchmark spécifiquement conçu pour explorer les principes de résolution de problèmes au-delà des performances de bout en bout. Nous avons méticuleusement collecté et catégorisé 6,5K problèmes de mathématiques visuels, couvrant 67 concepts de connaissances hiérarchiques et cinq niveaux de granularité de connaissances. Nous décomposons les problèmes composites en sous-problèmes selon les concepts de connaissances requis et introduisons une nouvelle métrique à quatre dimensions, à savoir Connaissance Insuffisante (IK), Généralisation Inadéquate (IG), Maîtrise Complète (CM) et Mémorisation Par Cœur (RM), pour évaluer hiérarchiquement les problèmes inhérents au processus de raisonnement des LMMs. Avec WE-MATH, nous menons une évaluation approfondie des LMMs existants en matière de raisonnement mathématique visuel et révélons une corrélation négative entre les étapes de résolution et les performances spécifiques aux problèmes. Nous confirmons que le problème IK des LMMs peut être efficacement amélioré via des stratégies d'augmentation des connaissances. Plus notablement, le défi principal de GPT-4o a significativement évolué de IK vers IG, l'établissant comme le premier LMM à progresser vers le stade de généralisation des connaissances. En revanche, les autres LMMs montrent une inclination marquée vers la Mémorisation Par Cœur - ils résolvent correctement les problèmes composites impliquant plusieurs concepts de connaissances, mais échouent à répondre aux sous-problèmes. Nous anticipons que WE-MATH ouvrira de nouvelles voies pour les avancées dans le raisonnement mathématique visuel des LMMs. Les données et le code d'évaluation de WE-MATH sont disponibles à l'adresse https://github.com/We-Math/We-Math.
English
Visual mathematical reasoning, as a fundamental visual reasoning ability, has
received widespread attention from the Large Multimodal Models (LMMs)
community. Existing benchmarks, such as MathVista and MathVerse, focus more on
the result-oriented performance but neglect the underlying principles in
knowledge acquisition and generalization. Inspired by human-like mathematical
reasoning, we introduce WE-MATH, the first benchmark specifically designed to
explore the problem-solving principles beyond end-to-end performance. We
meticulously collect and categorize 6.5K visual math problems, spanning 67
hierarchical knowledge concepts and five layers of knowledge granularity. We
decompose composite problems into sub-problems according to the required
knowledge concepts and introduce a novel four-dimensional metric, namely
Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery
(CM), and Rote Memorization (RM), to hierarchically assess inherent issues in
LMMs' reasoning process. With WE-MATH, we conduct a thorough evaluation of
existing LMMs in visual mathematical reasoning and reveal a negative
correlation between solving steps and problem-specific performance. We confirm
the IK issue of LMMs can be effectively improved via knowledge augmentation
strategies. More notably, the primary challenge of GPT-4o has significantly
transitioned from IK to IG, establishing it as the first LMM advancing towards
the knowledge generalization stage. In contrast, other LMMs exhibit a marked
inclination towards Rote Memorization - they correctly solve composite problems
involving multiple knowledge concepts yet fail to answer sub-problems. We
anticipate that WE-MATH will open new pathways for advancements in visual
mathematical reasoning for LMMs. The WE-MATH data and evaluation code are
available at https://github.com/We-Math/We-Math.Summary
AI-Generated Summary