MDK12-Bench: Ein multidisziplinärer Benchmark zur Bewertung des Denkvermögens in multimodalen großen Sprachmodellen
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models
April 8, 2025
Autoren: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI
Zusammenfassung
Multimodales Denken, das Sprache und visuelle Hinweise in Problemlösung und Entscheidungsfindung integriert, ist ein grundlegender Aspekt der menschlichen Intelligenz und ein entscheidender Schritt hin zu künstlicher allgemeiner Intelligenz. Die Bewertung der Fähigkeiten des multimodalen Denkens in Multimodalen Großen Sprachmodellen (MLLMs) bleibt jedoch unzureichend. Die meisten bestehenden Denkbenchmarks sind durch begrenzte Datenmengen, enge Domänenabdeckung und unstrukturierte Wissensverteilung eingeschränkt. Um diese Lücken zu schließen, führen wir MDK12-Bench ein, einen multidisziplinären Benchmark, der die Denkfähigkeiten von MLLMs anhand realer K-12-Prüfungen bewertet. Unser Benchmark umfasst sechs Disziplinen (Mathematik, Physik, Chemie, Biologie, Geographie und Informatik) und besteht aus 140.000 Denkinstanzen über verschiedene Schwierigkeitsgrade von der Grundschule bis zur 12. Klasse. Er bietet 6.827 Instanz-basierte Wissenspunkt-Annotationen basierend auf einer gut organisierten Wissensstruktur, detaillierte Antwortenklärungen, Schwierigkeitslabels und jahrgangsübergreifende Partitionen, was eine robuste Plattform für eine umfassende Bewertung bietet. Zusätzlich stellen wir ein neuartiges dynamisches Bewertungsframework vor, um Datenkontaminationsprobleme zu mindern, indem Frageformate, Fragetypen und Bildstile während der Bewertung gebootstrappt werden. Umfangreiche Experimente auf MDK12-Bench offenbaren die erheblichen Einschränkungen aktueller MLLMs im multimodalen Denken. Die Erkenntnisse aus unserem Benchmark liefern Einblicke in die Entwicklung der nächsten Modellgeneration. Unsere Daten und Codes sind verfügbar unter https://github.com/LanceZPF/MDK12.
English
Multimodal reasoning, which integrates language and visual cues into problem
solving and decision making, is a fundamental aspect of human intelligence and
a crucial step toward artificial general intelligence. However, the evaluation
of multimodal reasoning capabilities in Multimodal Large Language Models
(MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained
by limited data size, narrow domain coverage, and unstructured knowledge
distribution. To close these gaps, we introduce MDK12-Bench, a
multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via
real-world K-12 examinations. Spanning six disciplines (math, physics,
chemistry, biology, geography, and information science), our benchmark
comprises 140K reasoning instances across diverse difficulty levels from
primary school to 12th grade. It features 6,827 instance-level knowledge point
annotations based on a well-organized knowledge structure, detailed answer
explanations, difficulty labels and cross-year partitions, providing a robust
platform for comprehensive evaluation. Additionally, we present a novel dynamic
evaluation framework to mitigate data contamination issues by bootstrapping
question forms, question types, and image styles during evaluation. Extensive
experiment on MDK12-Bench reveals the significant limitation of current MLLMs
in multimodal reasoning. The findings on our benchmark provide insights into
the development of the next-generation models. Our data and codes are available
at https://github.com/LanceZPF/MDK12.Summary
AI-Generated Summary