M3SciQA: Ein Multi-Modaler Multi-Dokument-Wissenschaftlicher QA-Benchmark zur Bewertung von Foundation-Modellen
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models
November 6, 2024
papers.authors: Chuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan
cs.AI
papers.abstract
Bestehende Benchmarks zur Bewertung von Foundation-Modellen konzentrieren sich hauptsächlich auf Aufgaben, die sich auf einzelne Dokumente und rein textbasierte Inhalte beschränken. Allerdings erfassen sie oft nicht vollständig die Komplexität von Forschungsabläufen, die typischerweise die Interpretation nicht-textueller Daten und die Informationsbeschaffung über mehrere Dokumente hinweg beinhalten. Um diese Lücke zu schließen, führen wir M3SciQA ein, einen multimodalen, multidokumentarischen Benchmark für wissenschaftliche Frage-Antwort-Aufgaben, der eine umfassendere Bewertung von Foundation-Modellen ermöglicht. M3SciQA besteht aus 1.452 von Experten annotierten Fragen, die 70 Paper-Cluster im Bereich der natürlichen Sprachverarbeitung abdecken, wobei jeder Cluster ein Hauptpapier sowie alle darin zitierten Dokumente umfasst. Dies spiegelt den Arbeitsablauf wider, ein einzelnes Paper zu verstehen, indem multimodale und multidokumentarische Daten erforderlich sind. Mit M3SciQA führen wir eine umfassende Bewertung von 18 Foundation-Modellen durch. Unsere Ergebnisse zeigen, dass aktuelle Foundation-Modelle im Vergleich zu menschlichen Experten bei der multimodalen Informationsbeschaffung und beim schlussfolgernden Denken über mehrere wissenschaftliche Dokumente hinweg noch erheblich schlechter abschneiden. Zudem untersuchen wir die Implikationen dieser Erkenntnisse für die zukünftige Weiterentwicklung der Anwendung von Foundation-Modellen in der multimodalen Analyse wissenschaftlicher Literatur.
English
Existing benchmarks for evaluating foundation models mainly focus on
single-document, text-only tasks. However, they often fail to fully capture the
complexity of research workflows, which typically involve interpreting
non-textual data and gathering information across multiple documents. To
address this gap, we introduce M3SciQA, a multi-modal, multi-document
scientific question answering benchmark designed for a more comprehensive
evaluation of foundation models. M3SciQA consists of 1,452 expert-annotated
questions spanning 70 natural language processing paper clusters, where each
cluster represents a primary paper along with all its cited documents,
mirroring the workflow of comprehending a single paper by requiring multi-modal
and multi-document data. With M3SciQA, we conduct a comprehensive evaluation of
18 foundation models. Our results indicate that current foundation models still
significantly underperform compared to human experts in multi-modal information
retrieval and in reasoning across multiple scientific documents. Additionally,
we explore the implications of these findings for the future advancement of
applying foundation models in multi-modal scientific literature analysis.