ChatPaper.aiChatPaper

SPIQA: Een dataset voor multimodaal vraag-antwoord over wetenschappelijke artikelen

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

July 12, 2024
Auteurs: Shraman Pramanick, Rama Chellappa, Subhashini Venugopalan
cs.AI

Samenvatting

Het zoeken naar antwoorden op vragen binnen lange wetenschappelijke onderzoeksartikelen is een cruciaal onderzoeksgebied dat lezers helpt om snel hun vragen te beantwoorden. Bestaande vraag-antwoord (QA) datasets gebaseerd op wetenschappelijke artikelen zijn echter beperkt in omvang en richten zich uitsluitend op tekstuele inhoud. Om deze beperking aan te pakken, introduceren we SPIQA (Scientific Paper Image Question Answering), de eerste grootschalige QA-dataset die specifiek is ontworpen om complexe figuren en tabellen binnen de context van wetenschappelijke onderzoeksartikelen in verschillende domeinen van de informatica te interpreteren. Door gebruik te maken van de brede expertise en het vermogen van multimodale grote taalmodellen (MLLMs) om figuren te begrijpen, zetten we automatische en handmatige curatie in om de dataset te creëren. We ontwerpen een informatiezoektaak waarbij meerdere afbeeldingen betrokken zijn die een breed scala aan grafieken, diagrammen, tabellen, schematische weergaven en resultaatvisualisaties omvatten. SPIQA bestaat uit 270K vragen, verdeeld over trainings-, validatie- en drie verschillende evaluatiesplits. Door middel van uitgebreide experimenten met 12 prominente fundamentele modellen evalueren we het vermogen van huidige multimodale systemen om de genuanceerde aspecten van onderzoeksartikelen te begrijpen. Daarnaast stellen we een Chain-of-Thought (CoT) evaluatiestrategie voor met in-context retrieval, die een gedetailleerde, stap-voor-stap beoordeling mogelijk maakt en de modelprestaties verbetert. We onderzoeken verder de bovengrenzen van prestatieverbetering met aanvullende tekstuele informatie, wat het veelbelovende potentieel voor toekomstig onderzoek benadrukt en de impact van de dataset op de revolutie in hoe we omgaan met wetenschappelijke literatuur.
English
Seeking answers to questions within long scientific research articles is a crucial area of study that aids readers in quickly addressing their inquiries. However, existing question-answering (QA) datasets based on scientific papers are limited in scale and focus solely on textual content. To address this limitation, we introduce SPIQA (Scientific Paper Image Question Answering), the first large-scale QA dataset specifically designed to interpret complex figures and tables within the context of scientific research articles across various domains of computer science. Leveraging the breadth of expertise and ability of multimodal large language models (MLLMs) to understand figures, we employ automatic and manual curation to create the dataset. We craft an information-seeking task involving multiple images that cover a wide variety of plots, charts, tables, schematic diagrams, and result visualizations. SPIQA comprises 270K questions divided into training, validation, and three different evaluation splits. Through extensive experiments with 12 prominent foundational models, we evaluate the ability of current multimodal systems to comprehend the nuanced aspects of research articles. Additionally, we propose a Chain-of-Thought (CoT) evaluation strategy with in-context retrieval that allows fine-grained, step-by-step assessment and improves model performance. We further explore the upper bounds of performance enhancement with additional textual information, highlighting its promising potential for future research and the dataset's impact on revolutionizing how we interact with scientific literature.
PDF113November 28, 2024