M3SciQA: un benchmark per QA scientifico multi-modale e multi-documento per la valutazione di modelli di fondazione

Abstract

I benchmark esistenti per la valutazione di modelli di fondazione si concentrano principalmente su attività testuali relative a singoli documenti. Tuttavia, spesso non riescono a cogliere appieno la complessità dei flussi di lavoro di ricerca, che tipicamente implicano l'interpretazione di dati non testuali e la raccolta di informazioni da più documenti. Per colmare questa lacuna, introduciamo M3SciQA, un benchmark di question answering scientifico multi-modale e multi-documento, progettato per una valutazione più completa dei modelli di fondazione. M3SciQA è composto da 1.452 domande annotate da esperti, che abbracciano 70 cluster di articoli di elaborazione del linguaggio naturale, dove ogni cluster rappresenta un articolo principale insieme a tutti i documenti da esso citati, rispecchiando così il flusso di lavoro di comprensione di un singolo articolo che richiede dati multi-modali e multi-documento. Utilizzando M3SciQA, abbiamo condotto una valutazione completa di 18 modelli di fondazione. I nostri risultati indicano che gli attuali modelli di fondazione hanno prestazioni ancora significativamente inferiori rispetto a esperti umani sia nel recupero di informazioni multi-modali che nel ragionamento attraverso più documenti scientifici. Inoltre, esploriamo le implicazioni di questi risultati per i futuri progressi nell'applicazione di modelli di fondazione nell'analisi multi-modale della letteratura scientifica.

English

Existing benchmarks for evaluating foundation models mainly focus on single-document, text-only tasks. However, they often fail to fully capture the complexity of research workflows, which typically involve interpreting non-textual data and gathering information across multiple documents. To address this gap, we introduce M3SciQA, a multi-modal, multi-document scientific question answering benchmark designed for a more comprehensive evaluation of foundation models. M3SciQA consists of 1,452 expert-annotated questions spanning 70 natural language processing paper clusters, where each cluster represents a primary paper along with all its cited documents, mirroring the workflow of comprehending a single paper by requiring multi-modal and multi-document data. With M3SciQA, we conduct a comprehensive evaluation of 18 foundation models. Our results indicate that current foundation models still significantly underperform compared to human experts in multi-modal information retrieval and in reasoning across multiple scientific documents. Additionally, we explore the implications of these findings for the future advancement of applying foundation models in multi-modal scientific literature analysis.

M3SciQA: un benchmark per QA scientifico multi-modale e multi-documento per la valutazione di modelli di fondazione

M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models

Abstract

Support