SPIQA: 과학 논문에 대한 멀티모달 질의응답을 위한 데이터셋
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers
July 12, 2024
저자: Shraman Pramanick, Rama Chellappa, Subhashini Venugopalan
cs.AI
초록
긴 과학 연구 논문 내에서 질문에 대한 답을 찾는 것은 독자들이 신속하게 궁금증을 해결할 수 있도록 돕는 중요한 연구 분야입니다. 그러나 기존의 과학 논문 기반 질의응답(QA) 데이터셋은 규모가 제한적이며 텍스트 콘텐츠에만 초점을 맞추고 있습니다. 이러한 한계를 해결하기 위해, 우리는 다양한 컴퓨터 과학 분야의 과학 연구 논문 내 복잡한 그림과 표를 해석하기 위해 특별히 설계된 첫 번째 대규모 QA 데이터셋인 SPIQA(Scientific Paper Image Question Answering)를 소개합니다. 다중모달 대형 언어 모델(MLLMs)의 광범위한 전문성과 그림 이해 능력을 활용하여, 우리는 자동 및 수동 큐레이션을 통해 데이터셋을 구축했습니다. 우리는 다양한 플롯, 차트, 표, 개략도 및 결과 시각화를 포함하는 다중 이미지 기반 정보 탐색 작업을 설계했습니다. SPIQA는 훈련, 검증 및 세 가지 다른 평가 분할로 나뉜 270K개의 질문으로 구성됩니다. 12개의 주요 기초 모델을 통한 광범위한 실험을 통해, 우리는 현재 다중모달 시스템이 연구 논문의 미묘한 측면을 이해하는 능력을 평가합니다. 또한, 우리는 세분화된 단계별 평가를 가능하게 하고 모델 성능을 향상시키는 문맥 내 검색을 포함한 Chain-of-Thought(CoT) 평가 전략을 제안합니다. 우리는 추가 텍스트 정보를 통한 성능 향상의 상한선을 더 탐구하며, 이는 미래 연구에 대한 유망한 잠재력을 강조하고 과학 문헌과의 상호작용 방식을 혁신할 데이터셋의 영향을 보여줍니다.
English
Seeking answers to questions within long scientific research articles is a
crucial area of study that aids readers in quickly addressing their inquiries.
However, existing question-answering (QA) datasets based on scientific papers
are limited in scale and focus solely on textual content. To address this
limitation, we introduce SPIQA (Scientific Paper Image Question Answering), the
first large-scale QA dataset specifically designed to interpret complex figures
and tables within the context of scientific research articles across various
domains of computer science. Leveraging the breadth of expertise and ability of
multimodal large language models (MLLMs) to understand figures, we employ
automatic and manual curation to create the dataset. We craft an
information-seeking task involving multiple images that cover a wide variety of
plots, charts, tables, schematic diagrams, and result visualizations. SPIQA
comprises 270K questions divided into training, validation, and three different
evaluation splits. Through extensive experiments with 12 prominent foundational
models, we evaluate the ability of current multimodal systems to comprehend the
nuanced aspects of research articles. Additionally, we propose a
Chain-of-Thought (CoT) evaluation strategy with in-context retrieval that
allows fine-grained, step-by-step assessment and improves model performance. We
further explore the upper bounds of performance enhancement with additional
textual information, highlighting its promising potential for future research
and the dataset's impact on revolutionizing how we interact with scientific
literature.Summary
AI-Generated Summary