MathReal : Nous gardons les pieds sur terre ! Un benchmark de scènes réelles pour évaluer le raisonnement mathématique dans les modèles de langage multimodaux de grande taille.
MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models
August 8, 2025
papers.authors: Jun Feng, Zixin Wang, Zhentao Zhang, Yue Guo, Zhihan Zhou, Xiuyi Chen, Zhenyang Li, Dawei Yin
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables en raisonnement mathématique visuel sur divers benchmarks existants. Cependant, ces benchmarks sont principalement basés sur des entrées multimodales propres ou traitées, sans intégrer les images fournies par les utilisateurs éducatifs réels de la maternelle à la 12e année (K-12). Pour combler cette lacune, nous introduisons MathReal, un ensemble de données soigneusement constitué comprenant 2 000 questions mathématiques avec des images capturées par des appareils mobiles portables dans des scénarios authentiques. Chaque question est une image, contenant le texte de la question et un élément visuel. Nous classons systématiquement les images réelles en trois catégories principales : dégradation de la qualité de l'image, variation de perspective et interférence de contenu non pertinent, qui sont ensuite subdivisées en 14 sous-catégories. De plus, MathReal couvre cinq catégories de connaissances et de compétences fondamentales, qui englobent trois types de questions et sont divisées en trois niveaux de difficulté. Pour évaluer de manière exhaustive les capacités de raisonnement mathématique multimodal des MLLMs de pointe dans des scénarios réels, nous concevons six configurations expérimentales permettant une analyse systématique de leurs performances. À travers des expérimentations approfondies, nous constatons que les capacités de résolution de problèmes des MLLMs existants sont considérablement mises à l'épreuve dans des contextes éducatifs réalistes. Sur cette base, nous menons une analyse approfondie de leurs performances et de leurs schémas d'erreurs, fournissant des insights sur leurs capacités de reconnaissance, de compréhension et de raisonnement, et esquissant des directions pour des améliorations futures. Données et code : https://github.com/junfeng0288/MathReal.
English
Multimodal Large Language Models (MLLMs) have demonstrated remarkable
capabilities in visual mathematical reasoning across various existing
benchmarks. However, these benchmarks are predominantly based on clean or
processed multimodal inputs, without incorporating the images provided by
real-world Kindergarten through 12th grade (K-12) educational users. To address
this gap, we introduce MathReal, a meticulously curated dataset comprising
2,000 mathematical questions with images captured by handheld mobile devices in
authentic scenarios. Each question is an image, containing the question text
and visual element. We systematically classify the real images into three
primary categories: image quality degradation, perspective variation, and
irrelevant content interference, which are further delineated into 14
subcategories. Additionally, MathReal spans five core knowledge and ability
categories, which encompass three question types and are divided into three
difficulty levels. To comprehensively evaluate the multimodal mathematical
reasoning abilities of state-of-the-art MLLMs in real-world scenarios, we
design six experimental settings that enable a systematic analysis of their
performance. Through extensive experimentation, we find that the
problem-solving abilities of existing MLLMs are significantly challenged in
realistic educational contexts. Based on this, we conduct a thorough analysis
of their performance and error patterns, providing insights into their
recognition, comprehension, and reasoning capabilities, and outlining
directions for future improvements. Data and code:
https://github.com/junfeng0288/MathReal.