BMMR: Een grootschalige tweetalige multimodale multidisciplinaire redeneerdataset

Samenvatting

In dit artikel introduceren we BMMR, een grootschalige, tweetalige, multimodale en multidisciplinaire redeneerdataset voor de gemeenschap om grote multimodale modellen (LMMs) te ontwikkelen en te evalueren. BMMR bestaat uit 110.000 vragen op universitair niveau, verdeeld over 300 door UNESCO gedefinieerde vakgebieden, en omvat diverse formaten zoals meerkeuzevragen, invulvragen en open vragen. De data zijn afkomstig uit zowel gedrukte als digitale media, zoals boeken, examens en quizzen. Alle gegevens zijn gecureerd en gefilterd via een schaalbaar raamwerk met menselijke betrokkenheid, en elk voorbeeld is gekoppeld aan een hoogwaardig redeneerpad. De dataset is georganiseerd in twee delen: BMMR-Eval, dat 20.458 hoogwaardige voorbeelden bevat om LMMs uitgebreid te testen op kennis en redeneren over meerdere disciplines in zowel Chinees als Engels; en BMMR-Train, dat 88.991 voorbeelden bevat om verder onderzoek en ontwikkeling te ondersteunen, waarbij de huidige focus op wiskundig redeneren wordt uitgebreid naar diverse disciplines en domeinen. Daarnaast stellen we de procesgebaseerde multidisciplinaire verifier (d.w.z. BMMR-Verifier) voor voor een nauwkeurige en fijnmazige evaluatie van redeneerpaden. Uitgebreide experimenten op 24 modellen tonen aan dat (i) zelfs state-of-the-art modellen (bijv. o3 en Gemini-2.5-Pro) aanzienlijke ruimte voor verbetering laten op BMMR-Eval; (ii) redeneermodellen disciplinebias vertonen en LMMs alleen op specifieke vakgebieden overtreffen; (iii) open-source modellen nog steeds achterlopen op hun propriëtaire tegenhangers; en (iv) fine-tuning op BMMR-Train deze kloof verkleint. Daarnaast voeren we redeneerketenanalyses uit met BMMR-Verifier en andere diepgaande studies, waarbij we de uitdagingen blootleggen waar LMMs momenteel mee te maken hebben bij multidisciplinair redeneren. We zullen de data vrijgeven en hopen dat ons werk inzichten en bijdragen kan bieden aan de gemeenschap.

English

In this paper, we introduce BMMR, a large-scale bilingual, multimodal, multi-disciplinary reasoning dataset for the community to develop and evaluate large multimodal models (LMMs). BMMR comprises 110k college-level questions spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice, fill-in-the-blank, and open-ended QA-and sourced from both print and digital media such as books, exams, and quizzes. All data are curated and filtered via a human-in-the-loop and scalable framework, and each instance is paired with a high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval that comprises 20,458 high-quality instances to comprehensively assess LMMs' knowledge and reasoning across multiple disciplines in both Chinese and English; and BMMR-Train that contains 88,991 instances to support further research and development, extending the current focus on mathematical reasoning to diverse disciplines and domains. In addition, we propose the process-based multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained evaluation of reasoning paths. Extensive experiments on 24 models reveal that (i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs only on specific subjects; (iii) open-source models still trail their proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap. Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other in-depth studies, uncovering the challenges LMMs currently face in multidisciplinary reasoning. We will release the data, and we hope our work can offer insights and contributions to the community.

BMMR: Een grootschalige tweetalige multimodale multidisciplinaire redeneerdataset

BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

Samenvatting

Support