M3SciQA: 기초 모델 평가를 위한 다중 모달 다중 문서 과학 QA 벤치마크
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models
November 6, 2024
저자: Chuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan
cs.AI
초록
기존의 파운데이션 모델 평가를 위한 벤치마크는 주로 단일 문서, 텍스트 전용 작업에 초점을 맞추고 있다. 그러나 이러한 벤치마크는 일반적으로 비텍스트 데이터를 해석하고 여러 문서에 걸쳐 정보를 수집하는 연구 워크플로의 복잡성을 충분히 반영하지 못하는 경우가 많다. 이러한 격차를 해결하기 위해, 우리는 파운데이션 모델의 보다 포괄적인 평가를 위해 설계된 다중 모달, 다중 문서 과학 질의응답 벤치마크인 M3SciQA를 소개한다. M3SciQA는 70개의 자연어 처리 논문 클러스터에 걸쳐 전문가가 주석을 단 1,452개의 질문으로 구성되어 있으며, 각 클러스터는 주요 논문과 그 논문이 인용한 모든 문서를 포함하여, 다중 모달 및 다중 문서 데이터를 요구함으로써 단일 논문을 이해하는 워크플로를 반영한다. M3SciQA를 통해 우리는 18개의 파운데이션 모델에 대한 포괄적인 평가를 수행하였다. 우리의 결과는 현재의 파운데이션 모델들이 다중 모달 정보 검색 및 여러 과학 문서 간의 추론에서 인간 전문가에 비해 여전히 크게 뒤처지는 것을 보여준다. 또한, 우리는 이러한 발견이 다중 모달 과학 문헌 분석에서 파운데이션 모델 적용의 미래 발전에 미치는 함의를 탐구한다.
English
Existing benchmarks for evaluating foundation models mainly focus on
single-document, text-only tasks. However, they often fail to fully capture the
complexity of research workflows, which typically involve interpreting
non-textual data and gathering information across multiple documents. To
address this gap, we introduce M3SciQA, a multi-modal, multi-document
scientific question answering benchmark designed for a more comprehensive
evaluation of foundation models. M3SciQA consists of 1,452 expert-annotated
questions spanning 70 natural language processing paper clusters, where each
cluster represents a primary paper along with all its cited documents,
mirroring the workflow of comprehending a single paper by requiring multi-modal
and multi-document data. With M3SciQA, we conduct a comprehensive evaluation of
18 foundation models. Our results indicate that current foundation models still
significantly underperform compared to human experts in multi-modal information
retrieval and in reasoning across multiple scientific documents. Additionally,
we explore the implications of these findings for the future advancement of
applying foundation models in multi-modal scientific literature analysis.