ChatPaper.aiChatPaper

PDFTriage: Frage-Antwort-System für lange, strukturierte Dokumente

PDFTriage: Question Answering over Long, Structured Documents

September 16, 2023
Autoren: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben Schwierigkeiten bei der Beantwortung von Fragen zu Dokumenten (QA), insbesondere wenn das Dokument nicht in den begrenzten Kontextumfang eines LLMs passt. Um dieses Problem zu überwinden, konzentrieren sich die meisten bestehenden Arbeiten darauf, den relevanten Kontext aus dem Dokument abzurufen und ihn als einfachen Text darzustellen. Dokumente wie PDFs, Webseiten und Präsentationen sind jedoch von Natur aus strukturiert, mit verschiedenen Seiten, Tabellen, Abschnitten und so weiter. Die Darstellung solcher strukturierten Dokumente als einfacher Text steht im Widerspruch zum mentalen Modell der Benutzer, die diese Dokumente mit ihrer reichen Struktur wahrnehmen. Wenn ein System den Kontext aus dem Dokument abfragen muss, wird dieser Widerspruch deutlich, und scheinbar triviale Fragen können das QA-System zum Scheitern bringen. Um diese grundlegende Lücke bei der Handhabung strukturierter Dokumente zu schließen, schlagen wir einen Ansatz namens PDFTriage vor, der es Modellen ermöglicht, den Kontext basierend auf Struktur oder Inhalt abzurufen. Unsere Experimente zeigen die Wirksamkeit der vorgeschlagenen PDFTriage-erweiterten Modelle bei mehreren Klassen von Fragen, bei denen bestehende retrieval-augmentierte LLMs scheitern. Um die weitere Forschung zu diesem grundlegenden Problem zu fördern, veröffentlichen wir unseren Benchmark-Datensatz, der aus über 900 von Menschen generierten Fragen zu 80 strukturierten Dokumenten aus 10 verschiedenen Kategorien von Fragentypen für die Dokument-QA besteht.
English
Large Language Models (LLMs) have issues with document question answering (QA) in situations where the document is unable to fit in the small context length of an LLM. To overcome this issue, most existing works focus on retrieving the relevant context from the document, representing them as plain text. However, documents such as PDFs, web pages, and presentations are naturally structured with different pages, tables, sections, and so on. Representing such structured documents as plain text is incongruous with the user's mental model of these documents with rich structure. When a system has to query the document for context, this incongruity is brought to the fore, and seemingly trivial questions can trip up the QA system. To bridge this fundamental gap in handling structured documents, we propose an approach called PDFTriage that enables models to retrieve the context based on either structure or content. Our experiments demonstrate the effectiveness of the proposed PDFTriage-augmented models across several classes of questions where existing retrieval-augmented LLMs fail. To facilitate further research on this fundamental problem, we release our benchmark dataset consisting of 900+ human-generated questions over 80 structured documents from 10 different categories of question types for document QA.
PDF549December 15, 2024