M3SciQA: Ein Multi-Modaler Multi-Dokument-Wissenschaftlicher QA-Benchmark zur Bewertung von Foundation-Modellen

Zusammenfassung

Bestehende Benchmarks zur Bewertung von Foundation-Modellen konzentrieren sich hauptsächlich auf Aufgaben, die sich auf einzelne Dokumente und rein textbasierte Inhalte beschränken. Allerdings erfassen sie oft nicht vollständig die Komplexität von Forschungsabläufen, die typischerweise die Interpretation nicht-textueller Daten und die Informationsbeschaffung über mehrere Dokumente hinweg beinhalten. Um diese Lücke zu schließen, führen wir M3SciQA ein, einen multimodalen, multidokumentarischen Benchmark für wissenschaftliche Frage-Antwort-Aufgaben, der eine umfassendere Bewertung von Foundation-Modellen ermöglicht. M3SciQA besteht aus 1.452 von Experten annotierten Fragen, die 70 Paper-Cluster im Bereich der natürlichen Sprachverarbeitung abdecken, wobei jeder Cluster ein Hauptpapier sowie alle darin zitierten Dokumente umfasst. Dies spiegelt den Arbeitsablauf wider, ein einzelnes Paper zu verstehen, indem multimodale und multidokumentarische Daten erforderlich sind. Mit M3SciQA führen wir eine umfassende Bewertung von 18 Foundation-Modellen durch. Unsere Ergebnisse zeigen, dass aktuelle Foundation-Modelle im Vergleich zu menschlichen Experten bei der multimodalen Informationsbeschaffung und beim schlussfolgernden Denken über mehrere wissenschaftliche Dokumente hinweg noch erheblich schlechter abschneiden. Zudem untersuchen wir die Implikationen dieser Erkenntnisse für die zukünftige Weiterentwicklung der Anwendung von Foundation-Modellen in der multimodalen Analyse wissenschaftlicher Literatur.

English

Existing benchmarks for evaluating foundation models mainly focus on single-document, text-only tasks. However, they often fail to fully capture the complexity of research workflows, which typically involve interpreting non-textual data and gathering information across multiple documents. To address this gap, we introduce M3SciQA, a multi-modal, multi-document scientific question answering benchmark designed for a more comprehensive evaluation of foundation models. M3SciQA consists of 1,452 expert-annotated questions spanning 70 natural language processing paper clusters, where each cluster represents a primary paper along with all its cited documents, mirroring the workflow of comprehending a single paper by requiring multi-modal and multi-document data. With M3SciQA, we conduct a comprehensive evaluation of 18 foundation models. Our results indicate that current foundation models still significantly underperform compared to human experts in multi-modal information retrieval and in reasoning across multiple scientific documents. Additionally, we explore the implications of these findings for the future advancement of applying foundation models in multi-modal scientific literature analysis.