BMMR: Un conjunto de datos bilingüe multimodal a gran escala para razonamiento multidisciplinario
BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset
July 4, 2025
Autores: Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Resumen
En este artículo presentamos BMMR, un conjunto de datos bilingüe, multimodal y multidisciplinario a gran escala para el desarrollo y evaluación de modelos multimodales grandes (LMMs). BMMR consta de 110k preguntas de nivel universitario que abarcan 300 materias definidas por la UNESCO, con diversos formatos: opción múltiple, completar espacios en blanco y preguntas abiertas, obtenidas tanto de medios impresos como digitales, como libros, exámenes y cuestionarios. Todos los datos son curados y filtrados mediante un marco escalable con intervención humana, y cada instancia está acompañada de una ruta de razonamiento de alta calidad. El conjunto de datos se organiza en dos partes: BMMR-Eval, que incluye 20,458 instancias de alta calidad para evaluar de manera integral el conocimiento y el razonamiento de los LMMs en múltiples disciplinas tanto en chino como en inglés; y BMMR-Train, que contiene 88,991 instancias para apoyar investigaciones y desarrollos futuros, ampliando el enfoque actual en el razonamiento matemático a diversas disciplinas y dominios. Además, proponemos el verificador multidisciplinario basado en procesos (es decir, BMMR-Verifier) para una evaluación precisa y detallada de las rutas de razonamiento. Experimentos extensos en 24 modelos revelan que (i) incluso los modelos de última generación (por ejemplo, o3 y Gemini-2.5-Pro) dejan un margen significativo de mejora en BMMR-Eval; (ii) los modelos de razonamiento muestran sesgos disciplinarios y superan a los LMMs solo en materias específicas; (iii) los modelos de código abierto aún están por detrás de sus contrapartes propietarias; y (iv) el ajuste fino en BMMR-Train reduce esta brecha. Adicionalmente, realizamos análisis de cadenas de razonamiento utilizando BMMR-Verifier y otros estudios en profundidad, descubriendo los desafíos que los LMMs enfrentan actualmente en el razonamiento multidisciplinario. Publicaremos los datos y esperamos que nuestro trabajo pueda ofrecer perspectivas y contribuciones a la comunidad.
English
In this paper, we introduce BMMR, a large-scale bilingual, multimodal,
multi-disciplinary reasoning dataset for the community to develop and evaluate
large multimodal models (LMMs). BMMR comprises 110k college-level questions
spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice,
fill-in-the-blank, and open-ended QA-and sourced from both print and digital
media such as books, exams, and quizzes. All data are curated and filtered via
a human-in-the-loop and scalable framework, and each instance is paired with a
high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval
that comprises 20,458 high-quality instances to comprehensively assess LMMs'
knowledge and reasoning across multiple disciplines in both Chinese and
English; and BMMR-Train that contains 88,991 instances to support further
research and development, extending the current focus on mathematical reasoning
to diverse disciplines and domains. In addition, we propose the process-based
multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained
evaluation of reasoning paths. Extensive experiments on 24 models reveal that
(i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom
on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs
only on specific subjects; (iii) open-source models still trail their
proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap.
Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other
in-depth studies, uncovering the challenges LMMs currently face in
multidisciplinary reasoning. We will release the data, and we hope our work can
offer insights and contributions to the community.