MDK12-Bench: Многодисциплинарный бенчмарк для оценки способности к рассуждению в мультимодальных больших языковых моделях
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models
April 8, 2025
Авторы: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI
Аннотация
Мультимодальное рассуждение, объединяющее языковые и визуальные подсказки в процессе решения задач и принятия решений, является фундаментальным аспектом человеческого интеллекта и важным шагом на пути к созданию искусственного общего интеллекта. Однако оценка способностей к мультимодальному рассуждению в мультимодальных больших языковых моделях (MLLMs) остается недостаточной. Большинство существующих тестов на рассуждение ограничены небольшим объемом данных, узкой предметной областью и неструктурированным распределением знаний. Чтобы устранить эти пробелы, мы представляем MDK12-Bench — междисциплинарный бенчмарк, оценивающий способности MLLMs к рассуждению на основе реальных экзаменов K-12. Охватывая шесть дисциплин (математика, физика, химия, биология, география и информатика), наш бенчмарк включает 140 тысяч примеров задач различного уровня сложности — от начальной школы до 12 класса. Он содержит 6 827 аннотаций на уровне знаний, основанных на четко организованной структуре знаний, подробные объяснения ответов, метки сложности и разделение по годам, что обеспечивает надежную платформу для всесторонней оценки. Кроме того, мы предлагаем новую динамическую систему оценки, которая позволяет минимизировать проблемы загрязнения данных за счет изменения форм вопросов, типов задач и стилей изображений в процессе оценки. Обширные эксперименты на MDK12-Bench выявили значительные ограничения современных MLLMs в области мультимодального рассуждения. Результаты, полученные на нашем бенчмарке, дают ценные инсайты для разработки моделей следующего поколения. Наши данные и код доступны по адресу https://github.com/LanceZPF/MDK12.
English
Multimodal reasoning, which integrates language and visual cues into problem
solving and decision making, is a fundamental aspect of human intelligence and
a crucial step toward artificial general intelligence. However, the evaluation
of multimodal reasoning capabilities in Multimodal Large Language Models
(MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained
by limited data size, narrow domain coverage, and unstructured knowledge
distribution. To close these gaps, we introduce MDK12-Bench, a
multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via
real-world K-12 examinations. Spanning six disciplines (math, physics,
chemistry, biology, geography, and information science), our benchmark
comprises 140K reasoning instances across diverse difficulty levels from
primary school to 12th grade. It features 6,827 instance-level knowledge point
annotations based on a well-organized knowledge structure, detailed answer
explanations, difficulty labels and cross-year partitions, providing a robust
platform for comprehensive evaluation. Additionally, we present a novel dynamic
evaluation framework to mitigate data contamination issues by bootstrapping
question forms, question types, and image styles during evaluation. Extensive
experiment on MDK12-Bench reveals the significant limitation of current MLLMs
in multimodal reasoning. The findings on our benchmark provide insights into
the development of the next-generation models. Our data and codes are available
at https://github.com/LanceZPF/MDK12.Summary
AI-Generated Summary