ChatPaper.aiChatPaper

BMMR: Ein groß angelegter bilingualer multimodaler multidisziplinärer Reasoning-Datensatz

BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

July 4, 2025
Autoren: Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Zusammenfassung

In diesem Artikel stellen wir BMMR vor, einen groß angelegten, bilingualen, multimodalen und multidisziplinären Reasoning-Datensatz, der der Community zur Entwicklung und Bewertung großer multimodaler Modelle (LMMs) dienen soll. BMMR umfasst 110.000 Fragen auf College-Niveau, die 300 von der UNESCO definierte Fächer abdecken und verschiedene Formate wie Multiple-Choice, Lückentext und offene Fragen umfassen. Die Daten stammen sowohl aus Print- als auch aus digitalen Medien wie Büchern, Prüfungen und Quizzen. Alle Daten wurden durch ein skalierbares Framework mit menschlicher Beteiligung kuratiert und gefiltert, wobei jede Instanz mit einem hochwertigen Reasoning-Pfad versehen ist. Der Datensatz ist in zwei Teile gegliedert: BMMR-Eval, das 20.458 hochwertige Instanzen umfasst, um LMMs umfassend in Bezug auf Wissen und Reasoning über mehrere Disziplinen hinweg in Chinesisch und Englisch zu bewerten; und BMMR-Train, das 88.991 Instanzen enthält, um weitere Forschung und Entwicklung zu unterstützen und den derzeitigen Fokus auf mathematisches Reasoning auf diverse Disziplinen und Domänen auszuweiten. Zusätzlich schlagen wir den prozessbasierten Multidisziplin-Verifier (d.h. BMMR-Verifier) für eine genaue und feingranulare Bewertung von Reasoning-Pfaden vor. Umfangreiche Experimente mit 24 Modellen zeigen, dass (i) selbst State-of-the-Art-Modelle (z.B. o3 und Gemini-2.5-Pro) auf BMMR-Eval noch erheblichen Spielraum lassen; (ii) Reasoning-Modelle eine Disziplin-Bias aufweisen und LMMs nur in bestimmten Fächern übertreffen; (iii) Open-Source-Modelle ihren proprietären Gegenstücken noch hinterherhinken; und (iv) das Fine-Tuning auf BMMR-Train diese Lücke verringert. Darüber hinaus führen wir Reasoning-Kettenanalysen mit dem BMMR-Verifier und andere vertiefende Studien durch, die die Herausforderungen aufdecken, denen LMMs derzeit im multidisziplinären Reasoning gegenüberstehen. Wir werden die Daten veröffentlichen und hoffen, dass unsere Arbeit der Community wertvolle Einblicke und Beiträge liefern kann.
English
In this paper, we introduce BMMR, a large-scale bilingual, multimodal, multi-disciplinary reasoning dataset for the community to develop and evaluate large multimodal models (LMMs). BMMR comprises 110k college-level questions spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice, fill-in-the-blank, and open-ended QA-and sourced from both print and digital media such as books, exams, and quizzes. All data are curated and filtered via a human-in-the-loop and scalable framework, and each instance is paired with a high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval that comprises 20,458 high-quality instances to comprehensively assess LMMs' knowledge and reasoning across multiple disciplines in both Chinese and English; and BMMR-Train that contains 88,991 instances to support further research and development, extending the current focus on mathematical reasoning to diverse disciplines and domains. In addition, we propose the process-based multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained evaluation of reasoning paths. Extensive experiments on 24 models reveal that (i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs only on specific subjects; (iii) open-source models still trail their proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap. Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other in-depth studies, uncovering the challenges LMMs currently face in multidisciplinary reasoning. We will release the data, and we hope our work can offer insights and contributions to the community.
PDF201July 8, 2025