BMMR: Un conjunto de datos bilingüe multimodal a gran escala para razonamiento multidisciplinario

Resumen

En este artículo presentamos BMMR, un conjunto de datos bilingüe, multimodal y multidisciplinario a gran escala para el desarrollo y evaluación de modelos multimodales grandes (LMMs). BMMR consta de 110k preguntas de nivel universitario que abarcan 300 materias definidas por la UNESCO, con diversos formatos: opción múltiple, completar espacios en blanco y preguntas abiertas, obtenidas tanto de medios impresos como digitales, como libros, exámenes y cuestionarios. Todos los datos son curados y filtrados mediante un marco escalable con intervención humana, y cada instancia está acompañada de una ruta de razonamiento de alta calidad. El conjunto de datos se organiza en dos partes: BMMR-Eval, que incluye 20,458 instancias de alta calidad para evaluar de manera integral el conocimiento y el razonamiento de los LMMs en múltiples disciplinas tanto en chino como en inglés; y BMMR-Train, que contiene 88,991 instancias para apoyar investigaciones y desarrollos futuros, ampliando el enfoque actual en el razonamiento matemático a diversas disciplinas y dominios. Además, proponemos el verificador multidisciplinario basado en procesos (es decir, BMMR-Verifier) para una evaluación precisa y detallada de las rutas de razonamiento. Experimentos extensos en 24 modelos revelan que (i) incluso los modelos de última generación (por ejemplo, o3 y Gemini-2.5-Pro) dejan un margen significativo de mejora en BMMR-Eval; (ii) los modelos de razonamiento muestran sesgos disciplinarios y superan a los LMMs solo en materias específicas; (iii) los modelos de código abierto aún están por detrás de sus contrapartes propietarias; y (iv) el ajuste fino en BMMR-Train reduce esta brecha. Adicionalmente, realizamos análisis de cadenas de razonamiento utilizando BMMR-Verifier y otros estudios en profundidad, descubriendo los desafíos que los LMMs enfrentan actualmente en el razonamiento multidisciplinario. Publicaremos los datos y esperamos que nuestro trabajo pueda ofrecer perspectivas y contribuciones a la comunidad.

English

In this paper, we introduce BMMR, a large-scale bilingual, multimodal, multi-disciplinary reasoning dataset for the community to develop and evaluate large multimodal models (LMMs). BMMR comprises 110k college-level questions spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice, fill-in-the-blank, and open-ended QA-and sourced from both print and digital media such as books, exams, and quizzes. All data are curated and filtered via a human-in-the-loop and scalable framework, and each instance is paired with a high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval that comprises 20,458 high-quality instances to comprehensively assess LMMs' knowledge and reasoning across multiple disciplines in both Chinese and English; and BMMR-Train that contains 88,991 instances to support further research and development, extending the current focus on mathematical reasoning to diverse disciplines and domains. In addition, we propose the process-based multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained evaluation of reasoning paths. Extensive experiments on 24 models reveal that (i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs only on specific subjects; (iii) open-source models still trail their proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap. Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other in-depth studies, uncovering the challenges LMMs currently face in multidisciplinary reasoning. We will release the data, and we hope our work can offer insights and contributions to the community.

BMMR: Un conjunto de datos bilingüe multimodal a gran escala para razonamiento multidisciplinario

BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

Resumen

Support