BMMR: Масштабный двуязычный мультимодальный мультидисциплинарный набор данных для рассуждений
BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset
July 4, 2025
Авторы: Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Аннотация
В данной статье мы представляем BMMR — крупномасштабный двуязычный, мультимодальный и междисциплинарный набор данных для рассуждений, предназначенный для разработки и оценки крупных мультимодальных моделей (LMMs). BMMR включает 110 тысяч вопросов уровня колледжа, охватывающих 300 предметов, определенных ЮНЕСКО, и представленных в различных форматах — множественный выбор, заполнение пропусков и открытые вопросы. Данные собраны из печатных и цифровых источников, таких как книги, экзамены и викторины. Все данные отобраны и отфильтрованы с использованием масштабируемой системы с участием человека, и каждый пример сопровождается высококачественным путем рассуждений. Набор данных разделен на две части: BMMR-Eval, содержащий 20 458 высококачественных примеров для всесторонней оценки знаний и способности к рассуждению LMMs на китайском и английском языках в различных дисциплинах, и BMMR-Train, включающий 88 991 пример для поддержки дальнейших исследований и разработок, расширяя текущий фокус на математические рассуждения до разнообразных дисциплин и областей. Кроме того, мы предлагаем процессно-ориентированный междисциплинарный верификатор (BMMR-Verifier) для точной и детальной оценки путей рассуждений. Эксперименты на 24 моделях показывают, что (i) даже современные модели (например, o3 и Gemini-2.5-Pro) оставляют значительный потенциал для улучшения на BMMR-Eval; (ii) модели рассуждений демонстрируют дисциплинарную предвзятость и превосходят LMMs только в определенных предметах; (iii) открытые модели по-прежнему отстают от проприетарных аналогов; и (iv) дообучение на BMMR-Train сокращает этот разрыв. Дополнительно мы проводим анализ цепочек рассуждений с использованием BMMR-Verifier и другие углубленные исследования, выявляя текущие вызовы, с которыми сталкиваются LMMs в междисциплинарных рассуждениях. Мы опубликуем данные и надеемся, что наша работа внесет вклад и предоставит ценные инсайты для сообщества.
English
In this paper, we introduce BMMR, a large-scale bilingual, multimodal,
multi-disciplinary reasoning dataset for the community to develop and evaluate
large multimodal models (LMMs). BMMR comprises 110k college-level questions
spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice,
fill-in-the-blank, and open-ended QA-and sourced from both print and digital
media such as books, exams, and quizzes. All data are curated and filtered via
a human-in-the-loop and scalable framework, and each instance is paired with a
high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval
that comprises 20,458 high-quality instances to comprehensively assess LMMs'
knowledge and reasoning across multiple disciplines in both Chinese and
English; and BMMR-Train that contains 88,991 instances to support further
research and development, extending the current focus on mathematical reasoning
to diverse disciplines and domains. In addition, we propose the process-based
multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained
evaluation of reasoning paths. Extensive experiments on 24 models reveal that
(i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom
on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs
only on specific subjects; (iii) open-source models still trail their
proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap.
Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other
in-depth studies, uncovering the challenges LMMs currently face in
multidisciplinary reasoning. We will release the data, and we hope our work can
offer insights and contributions to the community.