ChatPaper.aiChatPaper

BMMR: Un Ampio Dataset Bilingue Multimodale per il Ragionamento Multidisciplinare

BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

July 4, 2025
Autori: Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Abstract

In questo articolo presentiamo BMMR, un dataset su larga scala bilingue, multimodale e multidisciplinare per il ragionamento, destinato alla comunità per sviluppare e valutare modelli multimodali di grandi dimensioni (LMM). BMMR comprende 110k domande di livello universitario che coprono 300 materie definite dall'UNESCO, con formati diversificati—scelta multipla, completamento e domande aperte—e provenienti sia da fonti cartacee che digitali come libri, esami e quiz. Tutti i dati sono curati e filtrati attraverso un framework scalabile con un approccio human-in-the-loop, e ogni istanza è associata a un percorso di ragionamento di alta qualità. Il dataset è organizzato in due parti: BMMR-Eval, che comprende 20.458 istanze di alta qualità per valutare in modo completo le conoscenze e il ragionamento degli LMM in diverse discipline sia in cinese che in inglese; e BMMR-Train, che contiene 88.991 istanze per supportare ulteriori ricerche e sviluppi, estendendo l'attuale focus sul ragionamento matematico a discipline e domini diversificati. Inoltre, proponiamo il verificatore multidisciplinare basato sul processo (cioè BMMR-Verifier) per una valutazione accurata e granulare dei percorsi di ragionamento. Esperimenti estesi su 24 modelli rivelano che (i) anche i modelli all'avanguardia (ad esempio, o3 e Gemini-2.5-Pro) lasciano un margine significativo su BMMR-Eval; (ii) i modelli di ragionamento mostrano un bias disciplinare e superano gli LMM solo su materie specifiche; (iii) i modelli open-source sono ancora indietro rispetto alle loro controparti proprietarie; e (iv) il fine-tuning su BMMR-Train riduce questo divario. Inoltre, conduciamo analisi delle catene di ragionamento utilizzando BMMR-Verifier e altri studi approfonditi, evidenziando le sfide che gli LMM affrontano attualmente nel ragionamento multidisciplinare. Rilasceremo i dati e speriamo che il nostro lavoro possa offrire spunti e contributi alla comunità.
English
In this paper, we introduce BMMR, a large-scale bilingual, multimodal, multi-disciplinary reasoning dataset for the community to develop and evaluate large multimodal models (LMMs). BMMR comprises 110k college-level questions spanning 300 UNESCO-defined subjects, spanning diverse formats-multiple-choice, fill-in-the-blank, and open-ended QA-and sourced from both print and digital media such as books, exams, and quizzes. All data are curated and filtered via a human-in-the-loop and scalable framework, and each instance is paired with a high-quality reasoning path. The dataset is organized into two parts: BMMR-Eval that comprises 20,458 high-quality instances to comprehensively assess LMMs' knowledge and reasoning across multiple disciplines in both Chinese and English; and BMMR-Train that contains 88,991 instances to support further research and development, extending the current focus on mathematical reasoning to diverse disciplines and domains. In addition, we propose the process-based multi-discipline verifier (i.e., BMMR-Verifier) for accurate and fine-grained evaluation of reasoning paths. Extensive experiments on 24 models reveal that (i) even SOTA models (e.g., o3 and Gemini-2.5-Pro) leave substantial headroom on BMMR-Eval; (ii) reasoning models exhibit discipline bias and outperform LMMs only on specific subjects; (iii) open-source models still trail their proprietary counterparts; and (iv) fine-tuning on BMMR-Train narrows this gap. Additionally, we conduct reasoning-chain analyses using BMMR-Verifier and other in-depth studies, uncovering the challenges LMMs currently face in multidisciplinary reasoning. We will release the data, and we hope our work can offer insights and contributions to the community.
PDF231July 8, 2025