MDK12-Bench:マルチモーダル大規模言語モデルの推論能力を評価するための多分野ベンチマーク
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models
April 8, 2025
著者: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI
要旨
言語と視覚的な手がかりを統合し、問題解決や意思決定を行うマルチモーダル推論は、人間の知能の基本的な側面であり、人工汎用知能に向けた重要なステップです。しかし、マルチモーダル大規模言語モデル(MLLMs)のマルチモーダル推論能力の評価は、依然として不十分です。既存の推論ベンチマークの多くは、データサイズの制約、狭いドメインカバレッジ、非構造化された知識分布によって制限されています。これらのギャップを埋めるため、我々はMDK12-Benchを導入します。これは、現実世界のK-12試験を通じてMLLMsの推論能力を評価する多分野ベンチマークです。数学、物理、化学、生物、地理、情報科学の6つの分野にまたがり、小学校から12年生までの多様な難易度レベルにわたる140Kの推論インスタンスを含んでいます。また、6,827のインスタンスレベルの知識ポイントアノテーションを、整然とした知識構造、詳細な解答説明、難易度ラベル、年度別分割に基づいて提供し、包括的な評価のための堅牢なプラットフォームを提供します。さらに、評価中に質問形式、質問タイプ、画像スタイルをブートストラップすることで、データ汚染の問題を軽減する新しい動的評価フレームワークを提示します。MDK12-Benchでの広範な実験により、現在のMLLMsのマルチモーダル推論における重大な限界が明らかになりました。我々のベンチマークでの発見は、次世代モデルの開発に洞察を提供します。データとコードはhttps://github.com/LanceZPF/MDK12で公開されています。
English
Multimodal reasoning, which integrates language and visual cues into problem
solving and decision making, is a fundamental aspect of human intelligence and
a crucial step toward artificial general intelligence. However, the evaluation
of multimodal reasoning capabilities in Multimodal Large Language Models
(MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained
by limited data size, narrow domain coverage, and unstructured knowledge
distribution. To close these gaps, we introduce MDK12-Bench, a
multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via
real-world K-12 examinations. Spanning six disciplines (math, physics,
chemistry, biology, geography, and information science), our benchmark
comprises 140K reasoning instances across diverse difficulty levels from
primary school to 12th grade. It features 6,827 instance-level knowledge point
annotations based on a well-organized knowledge structure, detailed answer
explanations, difficulty labels and cross-year partitions, providing a robust
platform for comprehensive evaluation. Additionally, we present a novel dynamic
evaluation framework to mitigate data contamination issues by bootstrapping
question forms, question types, and image styles during evaluation. Extensive
experiment on MDK12-Bench reveals the significant limitation of current MLLMs
in multimodal reasoning. The findings on our benchmark provide insights into
the development of the next-generation models. Our data and codes are available
at https://github.com/LanceZPF/MDK12.Summary
AI-Generated Summary