ChatPaper.aiChatPaper

SPIQA: Un Dataset per il Question Answering Multimodale su Articoli Scientifici

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

July 12, 2024
Autori: Shraman Pramanick, Rama Chellappa, Subhashini Venugopalan
cs.AI

Abstract

La ricerca di risposte a domande all'interno di lunghi articoli di ricerca scientifica rappresenta un'area di studio cruciale che aiuta i lettori a risolvere rapidamente i propri dubbi. Tuttavia, i dataset esistenti per il question-answering (QA) basati su articoli scientifici sono limitati in scala e si concentrano esclusivamente sul contenuto testuale. Per superare questa limitazione, introduciamo SPIQA (Scientific Paper Image Question Answering), il primo dataset QA su larga scala specificamente progettato per interpretare figure e tabelle complesse nel contesto di articoli di ricerca scientifica in vari ambiti dell'informatica. Sfruttando l'ampia competenza e la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) di comprendere le figure, utilizziamo una curatela automatica e manuale per creare il dataset. Abbiamo ideato un'attività di ricerca di informazioni che coinvolge più immagini, coprendo una vasta gamma di grafici, diagrammi, tabelle, schemi e visualizzazioni di risultati. SPIQA comprende 270K domande suddivise in set di addestramento, validazione e tre diversi set di valutazione. Attraverso esperimenti estesi con 12 modelli fondazionali di rilievo, valutiamo la capacità dei sistemi multimodali attuali di comprendere gli aspetti più sfumati degli articoli di ricerca. Inoltre, proponiamo una strategia di valutazione Chain-of-Thought (CoT) con recupero in contesto che consente una valutazione granulare e passo-passo, migliorando le prestazioni del modello. Esploriamo ulteriormente i limiti superiori del miglioramento delle prestazioni con informazioni testuali aggiuntive, evidenziando il suo potenziale promettente per la ricerca futura e l'impatto del dataset nel rivoluzionare il modo in cui interagiamo con la letteratura scientifica.
English
Seeking answers to questions within long scientific research articles is a crucial area of study that aids readers in quickly addressing their inquiries. However, existing question-answering (QA) datasets based on scientific papers are limited in scale and focus solely on textual content. To address this limitation, we introduce SPIQA (Scientific Paper Image Question Answering), the first large-scale QA dataset specifically designed to interpret complex figures and tables within the context of scientific research articles across various domains of computer science. Leveraging the breadth of expertise and ability of multimodal large language models (MLLMs) to understand figures, we employ automatic and manual curation to create the dataset. We craft an information-seeking task involving multiple images that cover a wide variety of plots, charts, tables, schematic diagrams, and result visualizations. SPIQA comprises 270K questions divided into training, validation, and three different evaluation splits. Through extensive experiments with 12 prominent foundational models, we evaluate the ability of current multimodal systems to comprehend the nuanced aspects of research articles. Additionally, we propose a Chain-of-Thought (CoT) evaluation strategy with in-context retrieval that allows fine-grained, step-by-step assessment and improves model performance. We further explore the upper bounds of performance enhancement with additional textual information, highlighting its promising potential for future research and the dataset's impact on revolutionizing how we interact with scientific literature.
PDF113November 28, 2024