BMMR : Un vaste ensemble de données bilingues multimodales pour le raisonnement multidisciplinaire
BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset
July 4, 2025
Auteurs: Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Résumé
Dans cet article, nous présentons BMMR, un ensemble de données bilingue, multimodal et multidisciplinaire à grande échelle, conçu pour permettre à la communauté de développer et d'évaluer des modèles multimodaux de grande taille (LMMs). BMMR comprend 110 000 questions de niveau universitaire couvrant 300 disciplines définies par l'UNESCO, avec des formats variés—questions à choix multiples, à trous et ouvertes—et provenant de sources imprimées et numériques telles que des livres, des examens et des quiz. Toutes les données sont soigneusement sélectionnées et filtrées via un cadre évolutif impliquant une intervention humaine, et chaque instance est accompagnée d'un chemin de raisonnement de haute qualité. L'ensemble de données est organisé en deux parties : BMMR-Eval, qui comprend 20 458 instances de haute qualité pour évaluer de manière exhaustive les connaissances et le raisonnement des LMMs à travers plusieurs disciplines en chinois et en anglais ; et BMMR-Train, qui contient 88 991 instances pour soutenir la recherche et le développement, élargissant l'actuel focus sur le raisonnement mathématique à diverses disciplines et domaines. De plus, nous proposons le vérificateur multidisciplinaire basé sur le processus (c'est-à-dire BMMR-Verifier) pour une évaluation précise et granulaire des chemins de raisonnement. Des expériences approfondies sur 24 modèles révèlent que (i) même les modèles de pointe (par exemple, o3 et Gemini-2.5-Pro) laissent une marge d'amélioration significative sur BMMR-Eval ; (ii) les modèles de raisonnement présentent un biais disciplinaire et surpassent les LMMs uniquement sur des sujets spécifiques ; (iii) les modèles open-source restent en retard par rapport à leurs homologues propriétaires ; et (iv) le fine-tuning sur BMMR-Train réduit cet écart. Par ailleurs, nous menons des analyses de chaînes de raisonnement à l'aide de BMMR-Verifier et d'autres études approfondies, mettant en lumière les défis actuels des LMMs dans le raisonnement multidisciplinaire. Nous publierons les données, et nous espérons que notre travail apportera des insights et des contributions à la communauté.
English
In this paper, we introduce BMMR, a large-scale bilingual, multimodal,
multi-disciplinary reasoning dataset for the community to develop and evaluate
large multimodal models (LMMs). BMMR comprises 110k college-level questions
spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice,
fill-in-the-blank, and open-ended QA-and sourced from both print and digital
media such as books, exams, and quizzes. All data are curated and filtered via
a human-in-the-loop and scalable framework, and each instance is paired with a
high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval
that comprises 20,458 high-quality instances to comprehensively assess LMMs'
knowledge and reasoning across multiple disciplines in both Chinese and
English; and BMMR-Train that contains 88,991 instances to support further
research and development, extending the current focus on mathematical reasoning
to diverse disciplines and domains. In addition, we propose the process-based
multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained
evaluation of reasoning paths. Extensive experiments on 24 models reveal that
(i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom
on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs
only on specific subjects; (iii) open-source models still trail their
proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap.
Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other
in-depth studies, uncovering the challenges LMMs currently face in
multidisciplinary reasoning. We will release the data, and we hope our work can
offer insights and contributions to the community.