M3SciQA: Un Benchmark Multi-Modal y Multi-Documento de Preguntas y Respuestas Científicas para la Evaluación de Modelos Fundacionales
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models
November 6, 2024
Autores: Chuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan
cs.AI
Resumen
Los puntos de referencia existentes para evaluar modelos fundacionales se centran principalmente en tareas de un solo documento y solo texto. Sin embargo, a menudo no logran capturar plenamente la complejidad de los flujos de trabajo de investigación, que normalmente implican interpretar datos no textuales y recopilar información a través de múltiples documentos. Para abordar esta brecha, presentamos M3SciQA, un punto de referencia de respuesta a preguntas científicas multimodal y multidocumento, diseñado para una evaluación más integral de los modelos fundacionales. M3SciQA consta de 1.452 preguntas anotadas por expertos que abarcan 70 grupos de artículos de procesamiento del lenguaje natural, donde cada grupo representa un artículo principal junto con todos sus documentos citados, reflejando así el flujo de trabajo de comprensión de un solo artículo al requerir datos multimodales y multidocumento. Utilizando M3SciQA, realizamos una evaluación exhaustiva de 18 modelos fundacionales. Nuestros resultados indican que los modelos fundacionales actuales aún tienen un rendimiento significativamente inferior al de los expertos humanos tanto en la recuperación de información multimodal como en el razonamiento a través de múltiples documentos científicos. Además, exploramos las implicaciones de estos hallazgos para el avance futuro de la aplicación de modelos fundacionales en el análisis de literatura científica multimodal.
English
Existing benchmarks for evaluating foundation models mainly focus on
single-document, text-only tasks. However, they often fail to fully capture the
complexity of research workflows, which typically involve interpreting
non-textual data and gathering information across multiple documents. To
address this gap, we introduce M3SciQA, a multi-modal, multi-document
scientific question answering benchmark designed for a more comprehensive
evaluation of foundation models. M3SciQA consists of 1,452 expert-annotated
questions spanning 70 natural language processing paper clusters, where each
cluster represents a primary paper along with all its cited documents,
mirroring the workflow of comprehending a single paper by requiring multi-modal
and multi-document data. With M3SciQA, we conduct a comprehensive evaluation of
18 foundation models. Our results indicate that current foundation models still
significantly underperform compared to human experts in multi-modal information
retrieval and in reasoning across multiple scientific documents. Additionally,
we explore the implications of these findings for the future advancement of
applying foundation models in multi-modal scientific literature analysis.