MDK12-Bench: Um Benchmark Multidisciplinar para Avaliação do Raciocínio em Modelos de Linguagem Multimodais de Grande Escala
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models
April 8, 2025
Autores: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI
Resumo
O raciocínio multimodal, que integra linguagem e pistas visuais na resolução de problemas e tomada de decisões, é um aspecto fundamental da inteligência humana e um passo crucial em direção à inteligência artificial geral. No entanto, a avaliação das capacidades de raciocínio multimodal em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ainda é inadequada. A maioria dos benchmarks de raciocínio existentes é limitada por tamanho reduzido de dados, cobertura restrita de domínios e distribuição desestruturada de conhecimento. Para preencher essas lacunas, introduzimos o MDK12-Bench, um benchmark multidisciplinar que avalia as capacidades de raciocínio de MLLMs por meio de exames reais do ensino fundamental e médio (K-12). Abrangendo seis disciplinas (matemática, física, química, biologia, geografia e ciência da informação), nosso benchmark compreende 140 mil instâncias de raciocínio em diversos níveis de dificuldade, desde o ensino fundamental até o 12º ano. Ele apresenta 6.827 anotações de pontos de conhecimento em nível de instância, baseadas em uma estrutura de conhecimento bem organizada, explicações detalhadas das respostas, rótulos de dificuldade e partições cruzadas por ano, fornecendo uma plataforma robusta para avaliação abrangente. Além disso, apresentamos uma nova estrutura de avaliação dinâmica para mitigar problemas de contaminação de dados, ao gerar automaticamente formas de perguntas, tipos de questões e estilos de imagens durante a avaliação. Experimentos extensivos no MDK12-Bench revelam a limitação significativa dos MLLMs atuais em raciocínio multimodal. As descobertas em nosso benchmark oferecem insights para o desenvolvimento de modelos de próxima geração. Nossos dados e códigos estão disponíveis em https://github.com/LanceZPF/MDK12.
English
Multimodal reasoning, which integrates language and visual cues into problem
solving and decision making, is a fundamental aspect of human intelligence and
a crucial step toward artificial general intelligence. However, the evaluation
of multimodal reasoning capabilities in Multimodal Large Language Models
(MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained
by limited data size, narrow domain coverage, and unstructured knowledge
distribution. To close these gaps, we introduce MDK12-Bench, a
multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via
real-world K-12 examinations. Spanning six disciplines (math, physics,
chemistry, biology, geography, and information science), our benchmark
comprises 140K reasoning instances across diverse difficulty levels from
primary school to 12th grade. It features 6,827 instance-level knowledge point
annotations based on a well-organized knowledge structure, detailed answer
explanations, difficulty labels and cross-year partitions, providing a robust
platform for comprehensive evaluation. Additionally, we present a novel dynamic
evaluation framework to mitigate data contamination issues by bootstrapping
question forms, question types, and image styles during evaluation. Extensive
experiment on MDK12-Bench reveals the significant limitation of current MLLMs
in multimodal reasoning. The findings on our benchmark provide insights into
the development of the next-generation models. Our data and codes are available
at https://github.com/LanceZPF/MDK12.