ChatPaper.aiChatPaper

MDK12-Bench: Многодисциплинарный бенчмарк для оценки способности к рассуждению в мультимодальных больших языковых моделях

MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

April 8, 2025
Авторы: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI

Аннотация

Мультимодальное рассуждение, объединяющее языковые и визуальные подсказки в процессе решения задач и принятия решений, является фундаментальным аспектом человеческого интеллекта и важным шагом на пути к созданию искусственного общего интеллекта. Однако оценка способностей к мультимодальному рассуждению в мультимодальных больших языковых моделях (MLLMs) остается недостаточной. Большинство существующих тестов на рассуждение ограничены небольшим объемом данных, узкой предметной областью и неструктурированным распределением знаний. Чтобы устранить эти пробелы, мы представляем MDK12-Bench — междисциплинарный бенчмарк, оценивающий способности MLLMs к рассуждению на основе реальных экзаменов K-12. Охватывая шесть дисциплин (математика, физика, химия, биология, география и информатика), наш бенчмарк включает 140 тысяч примеров задач различного уровня сложности — от начальной школы до 12 класса. Он содержит 6 827 аннотаций на уровне знаний, основанных на четко организованной структуре знаний, подробные объяснения ответов, метки сложности и разделение по годам, что обеспечивает надежную платформу для всесторонней оценки. Кроме того, мы предлагаем новую динамическую систему оценки, которая позволяет минимизировать проблемы загрязнения данных за счет изменения форм вопросов, типов задач и стилей изображений в процессе оценки. Обширные эксперименты на MDK12-Bench выявили значительные ограничения современных MLLMs в области мультимодального рассуждения. Результаты, полученные на нашем бенчмарке, дают ценные инсайты для разработки моделей следующего поколения. Наши данные и код доступны по адресу https://github.com/LanceZPF/MDK12.
English
Multimodal reasoning, which integrates language and visual cues into problem solving and decision making, is a fundamental aspect of human intelligence and a crucial step toward artificial general intelligence. However, the evaluation of multimodal reasoning capabilities in Multimodal Large Language Models (MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained by limited data size, narrow domain coverage, and unstructured knowledge distribution. To close these gaps, we introduce MDK12-Bench, a multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via real-world K-12 examinations. Spanning six disciplines (math, physics, chemistry, biology, geography, and information science), our benchmark comprises 140K reasoning instances across diverse difficulty levels from primary school to 12th grade. It features 6,827 instance-level knowledge point annotations based on a well-organized knowledge structure, detailed answer explanations, difficulty labels and cross-year partitions, providing a robust platform for comprehensive evaluation. Additionally, we present a novel dynamic evaluation framework to mitigate data contamination issues by bootstrapping question forms, question types, and image styles during evaluation. Extensive experiment on MDK12-Bench reveals the significant limitation of current MLLMs in multimodal reasoning. The findings on our benchmark provide insights into the development of the next-generation models. Our data and codes are available at https://github.com/LanceZPF/MDK12.

Summary

AI-Generated Summary

PDF42April 15, 2025