BMMR: Um Grande Conjunto de Dados Bilingue Multimodal para Raciocínio Multidisciplinar
BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset
July 4, 2025
Autores: Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Resumo
Neste artigo, apresentamos o BMMR, um conjunto de dados bilíngue, multimodal e multidisciplinar em larga escala para o desenvolvimento e avaliação de modelos multimodais de grande escala (LMMs). O BMMR compreende 110 mil questões de nível universitário abrangendo 300 disciplinas definidas pela UNESCO, com diversos formatos — múltipla escolha, preenchimento de lacunas e perguntas abertas — e provenientes de mídias impressas e digitais, como livros, exames e quizzes. Todos os dados são curados e filtrados por meio de um framework escalável com intervenção humana, e cada instância é acompanhada por um caminho de raciocínio de alta qualidade. O conjunto de dados é organizado em duas partes: o BMMR-Eval, que contém 20.458 instâncias de alta qualidade para avaliar de forma abrangente o conhecimento e o raciocínio dos LMMs em múltiplas disciplinas, tanto em chinês quanto em inglês; e o BMMR-Train, que contém 88.991 instâncias para apoiar pesquisas e desenvolvimentos futuros, ampliando o foco atual no raciocínio matemático para diversas disciplinas e domínios. Além disso, propomos o verificador multidisciplinar baseado em processos (ou seja, o BMMR-Verifier) para uma avaliação precisa e detalhada dos caminhos de raciocínio. Experimentos extensivos em 24 modelos revelam que (i) mesmo modelos de última geração (por exemplo, o3 e Gemini-2.5-Pro) deixam uma margem significativa de melhoria no BMMR-Eval; (ii) modelos de raciocínio exibem viés disciplinar e superam os LMMs apenas em disciplinas específicas; (iii) modelos de código aberto ainda estão atrás de suas contrapartes proprietárias; e (iv) o ajuste fino no BMMR-Train reduz essa lacuna. Adicionalmente, conduzimos análises de cadeias de raciocínio usando o BMMR-Verifier e outros estudos aprofundados, revelando os desafios que os LMMs enfrentam atualmente no raciocínio multidisciplinar. Disponibilizaremos os dados e esperamos que nosso trabalho possa oferecer insights e contribuições para a comunidade.
English
In this paper, we introduce BMMR, a large-scale bilingual, multimodal,
multi-disciplinary reasoning dataset for the community to develop and evaluate
large multimodal models (LMMs). BMMR comprises 110k college-level questions
spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice,
fill-in-the-blank, and open-ended QA-and sourced from both print and digital
media such as books, exams, and quizzes. All data are curated and filtered via
a human-in-the-loop and scalable framework, and each instance is paired with a
high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval
that comprises 20,458 high-quality instances to comprehensively assess LMMs'
knowledge and reasoning across multiple disciplines in both Chinese and
English; and BMMR-Train that contains 88,991 instances to support further
research and development, extending the current focus on mathematical reasoning
to diverse disciplines and domains. In addition, we propose the process-based
multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained
evaluation of reasoning paths. Extensive experiments on 24 models reveal that
(i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom
on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs
only on specific subjects; (iii) open-source models still trail their
proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap.
Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other
in-depth studies, uncovering the challenges LMMs currently face in
multidisciplinary reasoning. We will release the data, and we hope our work can
offer insights and contributions to the community.