We-Math : Votre modèle multimodal de grande taille atteint-il un raisonnement mathématique similaire à celui des humains ?We-Math: Does Your Large Multimodal Model Achieve Human-like
Mathematical Reasoning?
Le raisonnement mathématique visuel, en tant que capacité fondamentale de raisonnement visuel, a suscité une attention considérable de la part de la communauté des modèles multimodaux de grande taille (LMMs). Les benchmarks existants, tels que MathVista et MathVerse, se concentrent davantage sur les performances orientées résultats, mais négligent les principes sous-jacents dans l'acquisition et la généralisation des connaissances. Inspirés par le raisonnement mathématique humain, nous introduisons WE-MATH, le premier benchmark spécifiquement conçu pour explorer les principes de résolution de problèmes au-delà des performances de bout en bout. Nous avons méticuleusement collecté et catégorisé 6,5K problèmes de mathématiques visuels, couvrant 67 concepts de connaissances hiérarchiques et cinq niveaux de granularité de connaissances. Nous décomposons les problèmes composites en sous-problèmes selon les concepts de connaissances requis et introduisons une nouvelle métrique à quatre dimensions, à savoir Connaissance Insuffisante (IK), Généralisation Inadéquate (IG), Maîtrise Complète (CM) et Mémorisation Par Cœur (RM), pour évaluer hiérarchiquement les problèmes inhérents au processus de raisonnement des LMMs. Avec WE-MATH, nous menons une évaluation approfondie des LMMs existants en matière de raisonnement mathématique visuel et révélons une corrélation négative entre les étapes de résolution et les performances spécifiques aux problèmes. Nous confirmons que le problème IK des LMMs peut être efficacement amélioré via des stratégies d'augmentation des connaissances. Plus notablement, le défi principal de GPT-4o a significativement évolué de IK vers IG, l'établissant comme le premier LMM à progresser vers le stade de généralisation des connaissances. En revanche, les autres LMMs montrent une inclination marquée vers la Mémorisation Par Cœur - ils résolvent correctement les problèmes composites impliquant plusieurs concepts de connaissances, mais échouent à répondre aux sous-problèmes. Nous anticipons que WE-MATH ouvrira de nouvelles voies pour les avancées dans le raisonnement mathématique visuel des LMMs. Les données et le code d'évaluation de WE-MATH sont disponibles à l'adresse https://github.com/We-Math/We-Math.