ChatPaper.aiChatPaper

MDK12-Bench: 다중 모달 대형 언어 모델의 추론 능력을 평가하기 위한 다학제적 벤치마크

MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

April 8, 2025
저자: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI

초록

언어와 시각적 단서를 문제 해결 및 의사결정에 통합하는 다중모달 추론은 인간 지능의 근본적인 측면이자 인공 일반 지능(AGI)으로 나아가는 중요한 단계입니다. 그러나 다중모달 대형 언어 모델(MLLM)의 다중모달 추론 능력 평가는 여전히 미흡한 실정입니다. 기존의 대부분의 추론 벤치마크는 제한된 데이터 크기, 좁은 도메인 범위, 비구조화된 지식 분포로 인해 한계를 가지고 있습니다. 이러한 격차를 해소하기 위해, 우리는 실제 K-12 시험을 통해 MLLM의 추론 능력을 평가하는 다학제적 벤치마크인 MDK12-Bench를 소개합니다. 수학, 물리학, 화학, 생물학, 지리학, 정보과학 등 6개 학문 분야를 아우르는 이 벤치마크는 초등학교부터 12학년까지 다양한 난이도의 140,000개 추론 인스턴스로 구성되어 있습니다. 또한, 잘 정리된 지식 구조를 기반으로 한 6,827개의 인스턴스 수준 지식 포인트 주석, 상세한 답변 설명, 난이도 라벨 및 연도별 분할을 제공하여 포괄적인 평가를 위한 견고한 플랫폼을 마련했습니다. 추가적으로, 우리는 평가 중 질문 형식, 질문 유형 및 이미지 스타일을 부트스트랩핑하여 데이터 오염 문제를 완화하기 위한 새로운 동적 평가 프레임워크를 제시합니다. MDK12-Bench에 대한 광범위한 실험을 통해 현재 MLLM의 다중모달 추론 능력이 상당히 제한적임을 밝혀냈습니다. 우리 벤치마크에서 얻은 결과는 차세대 모델 개발에 대한 통찰을 제공합니다. 데이터와 코드는 https://github.com/LanceZPF/MDK12에서 확인할 수 있습니다.
English
Multimodal reasoning, which integrates language and visual cues into problem solving and decision making, is a fundamental aspect of human intelligence and a crucial step toward artificial general intelligence. However, the evaluation of multimodal reasoning capabilities in Multimodal Large Language Models (MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained by limited data size, narrow domain coverage, and unstructured knowledge distribution. To close these gaps, we introduce MDK12-Bench, a multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via real-world K-12 examinations. Spanning six disciplines (math, physics, chemistry, biology, geography, and information science), our benchmark comprises 140K reasoning instances across diverse difficulty levels from primary school to 12th grade. It features 6,827 instance-level knowledge point annotations based on a well-organized knowledge structure, detailed answer explanations, difficulty labels and cross-year partitions, providing a robust platform for comprehensive evaluation. Additionally, we present a novel dynamic evaluation framework to mitigate data contamination issues by bootstrapping question forms, question types, and image styles during evaluation. Extensive experiment on MDK12-Bench reveals the significant limitation of current MLLMs in multimodal reasoning. The findings on our benchmark provide insights into the development of the next-generation models. Our data and codes are available at https://github.com/LanceZPF/MDK12.

Summary

AI-Generated Summary

PDF42April 15, 2025