M3SciQA: un benchmark per QA scientifico multi-modale e multi-documento per la valutazione di modelli di fondazione
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models
November 6, 2024
Autori: Chuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan
cs.AI
Abstract
I benchmark esistenti per la valutazione di modelli di fondazione si concentrano principalmente su attività testuali relative a singoli documenti. Tuttavia, spesso non riescono a cogliere appieno la complessità dei flussi di lavoro di ricerca, che tipicamente implicano l'interpretazione di dati non testuali e la raccolta di informazioni da più documenti. Per colmare questa lacuna, introduciamo M3SciQA, un benchmark di question answering scientifico multi-modale e multi-documento, progettato per una valutazione più completa dei modelli di fondazione. M3SciQA è composto da 1.452 domande annotate da esperti, che abbracciano 70 cluster di articoli di elaborazione del linguaggio naturale, dove ogni cluster rappresenta un articolo principale insieme a tutti i documenti da esso citati, rispecchiando così il flusso di lavoro di comprensione di un singolo articolo che richiede dati multi-modali e multi-documento. Utilizzando M3SciQA, abbiamo condotto una valutazione completa di 18 modelli di fondazione. I nostri risultati indicano che gli attuali modelli di fondazione hanno prestazioni ancora significativamente inferiori rispetto a esperti umani sia nel recupero di informazioni multi-modali che nel ragionamento attraverso più documenti scientifici. Inoltre, esploriamo le implicazioni di questi risultati per i futuri progressi nell'applicazione di modelli di fondazione nell'analisi multi-modale della letteratura scientifica.
English
Existing benchmarks for evaluating foundation models mainly focus on
single-document, text-only tasks. However, they often fail to fully capture the
complexity of research workflows, which typically involve interpreting
non-textual data and gathering information across multiple documents. To
address this gap, we introduce M3SciQA, a multi-modal, multi-document
scientific question answering benchmark designed for a more comprehensive
evaluation of foundation models. M3SciQA consists of 1,452 expert-annotated
questions spanning 70 natural language processing paper clusters, where each
cluster represents a primary paper along with all its cited documents,
mirroring the workflow of comprehending a single paper by requiring multi-modal
and multi-document data. With M3SciQA, we conduct a comprehensive evaluation of
18 foundation models. Our results indicate that current foundation models still
significantly underperform compared to human experts in multi-modal information
retrieval and in reasoning across multiple scientific documents. Additionally,
we explore the implications of these findings for the future advancement of
applying foundation models in multi-modal scientific literature analysis.