BMMR: Масштабный двуязычный мультимодальный мультидисциплинарный набор данных для рассуждений

Аннотация

В данной статье мы представляем BMMR — крупномасштабный двуязычный, мультимодальный и междисциплинарный набор данных для рассуждений, предназначенный для разработки и оценки крупных мультимодальных моделей (LMMs). BMMR включает 110 тысяч вопросов уровня колледжа, охватывающих 300 предметов, определенных ЮНЕСКО, и представленных в различных форматах — множественный выбор, заполнение пропусков и открытые вопросы. Данные собраны из печатных и цифровых источников, таких как книги, экзамены и викторины. Все данные отобраны и отфильтрованы с использованием масштабируемой системы с участием человека, и каждый пример сопровождается высококачественным путем рассуждений. Набор данных разделен на две части: BMMR-Eval, содержащий 20 458 высококачественных примеров для всесторонней оценки знаний и способности к рассуждению LMMs на китайском и английском языках в различных дисциплинах, и BMMR-Train, включающий 88 991 пример для поддержки дальнейших исследований и разработок, расширяя текущий фокус на математические рассуждения до разнообразных дисциплин и областей. Кроме того, мы предлагаем процессно-ориентированный междисциплинарный верификатор (BMMR-Verifier) для точной и детальной оценки путей рассуждений. Эксперименты на 24 моделях показывают, что (i) даже современные модели (например, o3 и Gemini-2.5-Pro) оставляют значительный потенциал для улучшения на BMMR-Eval; (ii) модели рассуждений демонстрируют дисциплинарную предвзятость и превосходят LMMs только в определенных предметах; (iii) открытые модели по-прежнему отстают от проприетарных аналогов; и (iv) дообучение на BMMR-Train сокращает этот разрыв. Дополнительно мы проводим анализ цепочек рассуждений с использованием BMMR-Verifier и другие углубленные исследования, выявляя текущие вызовы, с которыми сталкиваются LMMs в междисциплинарных рассуждениях. Мы опубликуем данные и надеемся, что наша работа внесет вклад и предоставит ценные инсайты для сообщества.

English

In this paper, we introduce BMMR, a large-scale bilingual, multimodal, multi-disciplinary reasoning dataset for the community to develop and evaluate large multimodal models (LMMs). BMMR comprises 110k college-level questions spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice, fill-in-the-blank, and open-ended QA-and sourced from both print and digital media such as books, exams, and quizzes. All data are curated and filtered via a human-in-the-loop and scalable framework, and each instance is paired with a high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval that comprises 20,458 high-quality instances to comprehensively assess LMMs' knowledge and reasoning across multiple disciplines in both Chinese and English; and BMMR-Train that contains 88,991 instances to support further research and development, extending the current focus on mathematical reasoning to diverse disciplines and domains. In addition, we propose the process-based multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained evaluation of reasoning paths. Extensive experiments on 24 models reveal that (i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs only on specific subjects; (iii) open-source models still trail their proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap. Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other in-depth studies, uncovering the challenges LMMs currently face in multidisciplinary reasoning. We will release the data, and we hope our work can offer insights and contributions to the community.

BMMR: Масштабный двуязычный мультимодальный мультидисциплинарный набор данных для рассуждений

BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

Аннотация

Support