PDFTriage: Vragen Beantwoorden over Lange, Gestructureerde Documenten
PDFTriage: Question Answering over Long, Structured Documents
September 16, 2023
Auteurs: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben problemen met het beantwoorden van vragen over documenten (QA) in situaties waarin het document niet past in de beperkte contextlengte van een LLM. Om dit probleem te overwinnen, richten de meeste bestaande werken zich op het ophalen van de relevante context uit het document, waarbij deze als platte tekst wordt weergegeven. Echter, documenten zoals PDF's, webpagina's en presentaties zijn van nature gestructureerd met verschillende pagina's, tabellen, secties, enzovoort. Het weergeven van dergelijke gestructureerde documenten als platte tekst is niet in overeenstemming met het mentale model van de gebruiker van deze documenten met een rijke structuur. Wanneer een systeem de context uit het document moet opvragen, komt deze incongruentie naar voren, en schijnbaar triviale vragen kunnen het QA-systeem in de problemen brengen. Om deze fundamentele kloof in het omgaan met gestructureerde documenten te overbruggen, stellen we een aanpak genaamd PDFTriage voor, waarmee modellen de context kunnen ophalen op basis van structuur of inhoud. Onze experimenten tonen de effectiviteit aan van de voorgestelde PDFTriage-versterkte modellen voor verschillende klassen van vragen waar bestaande retrieval-versterkte LLMs falen. Om verder onderzoek naar dit fundamentele probleem te faciliteren, geven we onze benchmarkdataset vrij, bestaande uit 900+ door mensen gegenereerde vragen over 80 gestructureerde documenten uit 10 verschillende categorieën van vraagtypen voor document QA.
English
Large Language Models (LLMs) have issues with document question answering
(QA) in situations where the document is unable to fit in the small context
length of an LLM. To overcome this issue, most existing works focus on
retrieving the relevant context from the document, representing them as plain
text. However, documents such as PDFs, web pages, and presentations are
naturally structured with different pages, tables, sections, and so on.
Representing such structured documents as plain text is incongruous with the
user's mental model of these documents with rich structure. When a system has
to query the document for context, this incongruity is brought to the fore, and
seemingly trivial questions can trip up the QA system. To bridge this
fundamental gap in handling structured documents, we propose an approach called
PDFTriage that enables models to retrieve the context based on either structure
or content. Our experiments demonstrate the effectiveness of the proposed
PDFTriage-augmented models across several classes of questions where existing
retrieval-augmented LLMs fail. To facilitate further research on this
fundamental problem, we release our benchmark dataset consisting of 900+
human-generated questions over 80 structured documents from 10 different
categories of question types for document QA.