ChatPaper.aiChatPaper

MathReal : Nous gardons les pieds sur terre ! Un benchmark de scènes réelles pour évaluer le raisonnement mathématique dans les modèles de langage multimodaux de grande taille.

MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models

August 8, 2025
papers.authors: Jun Feng, Zixin Wang, Zhentao Zhang, Yue Guo, Zhihan Zhou, Xiuyi Chen, Zhenyang Li, Dawei Yin
cs.AI

papers.abstract

Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables en raisonnement mathématique visuel sur divers benchmarks existants. Cependant, ces benchmarks sont principalement basés sur des entrées multimodales propres ou traitées, sans intégrer les images fournies par les utilisateurs éducatifs réels de la maternelle à la 12e année (K-12). Pour combler cette lacune, nous introduisons MathReal, un ensemble de données soigneusement constitué comprenant 2 000 questions mathématiques avec des images capturées par des appareils mobiles portables dans des scénarios authentiques. Chaque question est une image, contenant le texte de la question et un élément visuel. Nous classons systématiquement les images réelles en trois catégories principales : dégradation de la qualité de l'image, variation de perspective et interférence de contenu non pertinent, qui sont ensuite subdivisées en 14 sous-catégories. De plus, MathReal couvre cinq catégories de connaissances et de compétences fondamentales, qui englobent trois types de questions et sont divisées en trois niveaux de difficulté. Pour évaluer de manière exhaustive les capacités de raisonnement mathématique multimodal des MLLMs de pointe dans des scénarios réels, nous concevons six configurations expérimentales permettant une analyse systématique de leurs performances. À travers des expérimentations approfondies, nous constatons que les capacités de résolution de problèmes des MLLMs existants sont considérablement mises à l'épreuve dans des contextes éducatifs réalistes. Sur cette base, nous menons une analyse approfondie de leurs performances et de leurs schémas d'erreurs, fournissant des insights sur leurs capacités de reconnaissance, de compréhension et de raisonnement, et esquissant des directions pour des améliorations futures. Données et code : https://github.com/junfeng0288/MathReal.
English
Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in visual mathematical reasoning across various existing benchmarks. However, these benchmarks are predominantly based on clean or processed multimodal inputs, without incorporating the images provided by real-world Kindergarten through 12th grade (K-12) educational users. To address this gap, we introduce MathReal, a meticulously curated dataset comprising 2,000 mathematical questions with images captured by handheld mobile devices in authentic scenarios. Each question is an image, containing the question text and visual element. We systematically classify the real images into three primary categories: image quality degradation, perspective variation, and irrelevant content interference, which are further delineated into 14 subcategories. Additionally, MathReal spans five core knowledge and ability categories, which encompass three question types and are divided into three difficulty levels. To comprehensively evaluate the multimodal mathematical reasoning abilities of state-of-the-art MLLMs in real-world scenarios, we design six experimental settings that enable a systematic analysis of their performance. Through extensive experimentation, we find that the problem-solving abilities of existing MLLMs are significantly challenged in realistic educational contexts. Based on this, we conduct a thorough analysis of their performance and error patterns, providing insights into their recognition, comprehension, and reasoning capabilities, and outlining directions for future improvements. Data and code: https://github.com/junfeng0288/MathReal.
PDF112August 14, 2025