MDK12-Bench: Un punto de referencia multidisciplinario para evaluar el razonamiento en modelos de lenguaje multimodal de gran escala
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models
April 8, 2025
Autores: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
cs.AI
Resumen
El razonamiento multimodal, que integra señales lingüísticas y visuales en la resolución de problemas y la toma de decisiones, es un aspecto fundamental de la inteligencia humana y un paso crucial hacia la inteligencia artificial general. Sin embargo, la evaluación de las capacidades de razonamiento multimodal en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) sigue siendo insuficiente. La mayoría de los benchmarks de razonamiento existentes están limitados por un tamaño de datos reducido, una cobertura de dominio estrecha y una distribución de conocimiento no estructurada. Para cerrar estas brechas, presentamos MDK12-Bench, un benchmark multidisciplinario que evalúa las capacidades de razonamiento de los MLLMs mediante exámenes reales de K-12. Abarcando seis disciplinas (matemáticas, física, química, biología, geografía y ciencias de la información), nuestro benchmark comprende 140K instancias de razonamiento en diversos niveles de dificultad, desde la escuela primaria hasta el 12º grado. Incluye 6,827 anotaciones de puntos de conocimiento a nivel de instancia basadas en una estructura de conocimiento bien organizada, explicaciones detalladas de respuestas, etiquetas de dificultad y particiones por año, proporcionando una plataforma robusta para una evaluación integral. Además, presentamos un novedoso marco de evaluación dinámica para mitigar problemas de contaminación de datos mediante la generación de formas de preguntas, tipos de preguntas y estilos de imágenes durante la evaluación. Experimentos extensos en MDK12-Bench revelan las limitaciones significativas de los MLLMs actuales en el razonamiento multimodal. Los hallazgos en nuestro benchmark ofrecen insights para el desarrollo de la próxima generación de modelos. Nuestros datos y códigos están disponibles en https://github.com/LanceZPF/MDK12.
English
Multimodal reasoning, which integrates language and visual cues into problem
solving and decision making, is a fundamental aspect of human intelligence and
a crucial step toward artificial general intelligence. However, the evaluation
of multimodal reasoning capabilities in Multimodal Large Language Models
(MLLMs) remains inadequate. Most existing reasoning benchmarks are constrained
by limited data size, narrow domain coverage, and unstructured knowledge
distribution. To close these gaps, we introduce MDK12-Bench, a
multi-disciplinary benchmark assessing the reasoning capabilities of MLLMs via
real-world K-12 examinations. Spanning six disciplines (math, physics,
chemistry, biology, geography, and information science), our benchmark
comprises 140K reasoning instances across diverse difficulty levels from
primary school to 12th grade. It features 6,827 instance-level knowledge point
annotations based on a well-organized knowledge structure, detailed answer
explanations, difficulty labels and cross-year partitions, providing a robust
platform for comprehensive evaluation. Additionally, we present a novel dynamic
evaluation framework to mitigate data contamination issues by bootstrapping
question forms, question types, and image styles during evaluation. Extensive
experiment on MDK12-Bench reveals the significant limitation of current MLLMs
in multimodal reasoning. The findings on our benchmark provide insights into
the development of the next-generation models. Our data and codes are available
at https://github.com/LanceZPF/MDK12.Summary
AI-Generated Summary