MDK12-Bench : Un benchmark multidisciplinaire pour évaluer le raisonnement dans les modèles de langage multimodal de grande envergure
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models
April 8, 2025
Auteurs: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI
Résumé
Le raisonnement multimodal, qui intègre des indices linguistiques et visuels dans la résolution de problèmes et la prise de décision, est un aspect fondamental de l'intelligence humaine et une étape cruciale vers l'intelligence artificielle générale. Cependant, l'évaluation des capacités de raisonnement multimodal dans les modèles de langage multimodaux de grande taille (MLLMs) reste insuffisante. La plupart des benchmarks de raisonnement existants sont limités par une taille de données restreinte, une couverture de domaines étroite et une distribution de connaissances non structurée. Pour combler ces lacunes, nous introduisons MDK12-Bench, un benchmark multidisciplinaire évaluant les capacités de raisonnement des MLLMs via des examens réels de niveau K-12. Couvrant six disciplines (mathématiques, physique, chimie, biologie, géographie et informatique), notre benchmark comprend 140 000 instances de raisonnement de niveaux de difficulté variés, allant de l'école primaire à la 12e année. Il propose 6 827 annotations de points de connaissances au niveau des instances, basées sur une structure de connaissances bien organisée, des explications détaillées des réponses, des étiquettes de difficulté et des partitions interannuelles, offrant ainsi une plateforme robuste pour une évaluation complète. De plus, nous présentons un nouveau cadre d'évaluation dynamique pour atténuer les problèmes de contamination des données en réinitialisant les formes de questions, les types de questions et les styles d'images pendant l'évaluation. Une expérimentation approfondie sur MDK12-Bench révèle les limites significatives des MLLMs actuels en matière de raisonnement multimodal. Les résultats de notre benchmark fournissent des insights pour le développement des modèles de nouvelle génération. Nos données et codes sont disponibles à l'adresse https://github.com/LanceZPF/MDK12.
English
Multimodal reasoning, which integrates language and visual cues into problem
solving and decision making, is a fundamental aspect of human intelligence and
a crucial step toward artificial general intelligence. However, the evaluation
of multimodal reasoning capabilities in Multimodal Large Language Models
(MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained
by limited data size, narrow domain coverage, and unstructured knowledge
distribution. To close these gaps, we introduce MDK12-Bench, a
multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via
real-world K-12 examinations. Spanning six disciplines (math, physics,
chemistry, biology, geography, and information science), our benchmark
comprises 140K reasoning instances across diverse difficulty levels from
primary school to 12th grade. It features 6,827 instance-level knowledge point
annotations based on a well-organized knowledge structure, detailed answer
explanations, difficulty labels and cross-year partitions, providing a robust
platform for comprehensive evaluation. Additionally, we present a novel dynamic
evaluation framework to mitigate data contamination issues by bootstrapping
question forms, question types, and image styles during evaluation. Extensive
experiment on MDK12-Bench reveals the significant limitation of current MLLMs
in multimodal reasoning. The findings on our benchmark provide insights into
the development of the next-generation models. Our data and codes are available
at https://github.com/LanceZPF/MDK12.Summary
AI-Generated Summary