ChatPaper.aiChatPaper

MDK12-Bench: Een multidisciplinaire benchmark voor het evalueren van redeneervaardigheden in multimodale grote taalmodellen

MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

April 8, 2025
Auteurs: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI

Samenvatting

Multimodale redenering, waarbij taal en visuele signalen worden geïntegreerd in probleemoplossing en besluitvorming, is een fundamenteel aspect van menselijke intelligentie en een cruciale stap richting kunstmatige algemene intelligentie. Echter, de evaluatie van multimodale redeneervaardigheden in Multimodale Grote Taalmodellen (MLLMs) blijft ontoereikend. De meeste bestaande redeneerbenchmarks worden beperkt door een beperkte dataschaal, smalle domeindekking en ongestructureerde kennisverdeling. Om deze tekortkomingen aan te pakken, introduceren we MDK12-Bench, een multidisciplinaire benchmark die de redeneervaardigheden van MLLMs evalueert via real-world K-12 examens. Onze benchmark, die zes disciplines omvat (wiskunde, natuurkunde, scheikunde, biologie, aardrijkskunde en informatiewetenschappen), bestaat uit 140K redeneervoorbeelden over diverse moeilijkheidsgraden van basisschool tot 12e klas. Het bevat 6.827 annotaties van kennispunten op instapniveau gebaseerd op een goed georganiseerde kennisstructuur, gedetailleerde antwoordverklaringen, moeilijkheidslabels en kruisjaarpartities, wat een robuust platform biedt voor uitgebreide evaluatie. Daarnaast presenteren we een nieuw dynamisch evaluatieraamwerk om problemen met datacontaminatie te verminderen door vraagformuleringen, vraagtypen en beeldstijlen te bootstrappen tijdens de evaluatie. Uitgebreide experimenten op MDK12-Bench onthullen de aanzienlijke beperkingen van huidige MLLMs in multimodale redenering. De bevindingen op onze benchmark bieden inzichten voor de ontwikkeling van de volgende generatie modellen. Onze data en code zijn beschikbaar op https://github.com/LanceZPF/MDK12.
English
Multimodal reasoning, which integrates language and visual cues into problem solving and decision making, is a fundamental aspect of human intelligence and a crucial step toward artificial general intelligence. However, the evaluation of multimodal reasoning capabilities in Multimodal Large Language Models (MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained by limited data size, narrow domain coverage, and unstructured knowledge distribution. To close these gaps, we introduce MDK12-Bench, a multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via real-world K-12 examinations. Spanning six disciplines (math, physics, chemistry, biology, geography, and information science), our benchmark comprises 140K reasoning instances across diverse difficulty levels from primary school to 12th grade. It features 6,827 instance-level knowledge point annotations based on a well-organized knowledge structure, detailed answer explanations, difficulty labels and cross-year partitions, providing a robust platform for comprehensive evaluation. Additionally, we present a novel dynamic evaluation framework to mitigate data contamination issues by bootstrapping question forms, question types, and image styles during evaluation. Extensive experiment on MDK12-Bench reveals the significant limitation of current MLLMs in multimodal reasoning. The findings on our benchmark provide insights into the development of the next-generation models. Our data and codes are available at https://github.com/LanceZPF/MDK12.

Summary

AI-Generated Summary

PDF42April 15, 2025