BMMR:大規模二言語マルチモーダル多分野推論データセット
BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset
July 4, 2025
著者: Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
要旨
本論文では、大規模な二言語・多モーダル・多分野推論データセットであるBMMRを紹介し、コミュニティが大規模多モーダルモデル(LMMs)の開発と評価を行うための基盤を提供する。BMMRは、300のユネスコ定義科目にわたる11万件の大学レベルの問題を包含し、多肢選択、空欄補充、自由回答形式など多様な形式を網羅し、書籍、試験、クイズなどの印刷物およびデジタルメディアから収集された。すべてのデータは、人間を介したスケーラブルなフレームワークを通じて精選・フィルタリングされ、各インスタンスには高品質な推論パスが付与されている。データセットは2つの部分に分かれており、BMMR-Evalは20,458件の高品質なインスタンスを含み、中国語と英語の両方でLMMsの知識と推論能力を多分野にわたって包括的に評価する。一方、BMMR-Trainは88,991件のインスタンスを含み、数学的推論に焦点を当てた現在の研究を多分野・領域に拡張し、さらなる研究開発を支援する。さらに、推論パスの正確かつ詳細な評価のため、プロセスベースの多分野検証器(BMMR-Verifier)を提案する。24のモデルを用いた広範な実験により、(i) SOTAモデル(例:o3およびGemini-2.5-Pro)でさえBMMR-Evalにおいて大幅な改善余地があること、(ii) 推論モデルは分野バイアスを示し、特定の科目でのみLMMsを上回ること、(iii) オープンソースモデルは依然としてプロプライエタリモデルに遅れをとること、(iv) BMMR-Trainでのファインチューニングによりこの差が縮まること、が明らかとなった。加えて、BMMR-Verifierを用いた推論チェーン分析およびその他の詳細な研究を通じて、LMMsが現在直面する多分野推論における課題を明らかにする。データを公開し、本研究がコミュニティに洞察と貢献を提供できることを期待する。
English
In this paper, we introduce BMMR, a large-scale bilingual, multimodal,
multi-disciplinary reasoning dataset for the community to develop and evaluate
large multimodal models (LMMs). BMMR comprises 110k college-level questions
spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice,
fill-in-the-blank, and open-ended QA-and sourced from both print and digital
media such as books, exams, and quizzes. All data are curated and filtered via
a human-in-the-loop and scalable framework, and each instance is paired with a
high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval
that comprises 20,458 high-quality instances to comprehensively assess LMMs'
knowledge and reasoning across multiple disciplines in both Chinese and
English; and BMMR-Train that contains 88,991 instances to support further
research and development, extending the current focus on mathematical reasoning
to diverse disciplines and domains. In addition, we propose the process-based
multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained
evaluation of reasoning paths. Extensive experiments on 24 models reveal that
(i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom
on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs
only on specific subjects; (iii) open-source models still trail their
proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap.
Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other
in-depth studies, uncovering the challenges LMMs currently face in
multidisciplinary reasoning. We will release the data, and we hope our work can
offer insights and contributions to the community.