PDFTriage : Réponse à des questions sur des documents longs et structurés
PDFTriage: Question Answering over Long, Structured Documents
September 16, 2023
Auteurs: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) rencontrent des difficultés dans les tâches de question-réponse (QA) sur des documents lorsque ceux-ci ne peuvent pas être intégrés dans la petite longueur de contexte d'un LLM. Pour surmonter ce problème, la plupart des travaux existants se concentrent sur la récupération du contexte pertinent à partir du document, en le représentant sous forme de texte brut. Cependant, les documents tels que les PDF, les pages web et les présentations sont naturellement structurés avec différentes pages, tableaux, sections, etc. Représenter de tels documents structurés sous forme de texte brut est en décalage avec le modèle mental que l'utilisateur a de ces documents riches en structure. Lorsqu'un système doit interroger le document pour en extraire le contexte, ce décalage devient évident, et des questions apparemment triviales peuvent déstabiliser le système de QA. Pour combler cette lacune fondamentale dans la gestion des documents structurés, nous proposons une approche appelée PDFTriage qui permet aux modèles de récupérer le contexte en se basant soit sur la structure, soit sur le contenu. Nos expériences démontrent l'efficacité des modèles augmentés par PDFTriage sur plusieurs classes de questions où les LLMs existants augmentés par récupération échouent. Pour faciliter les recherches ultérieures sur ce problème fondamental, nous publions notre ensemble de données de référence comprenant plus de 900 questions générées par des humains sur 80 documents structurés, couvrant 10 catégories différentes de types de questions pour la QA sur documents.
English
Large Language Models (LLMs) have issues with document question answering
(QA) in situations where the document is unable to fit in the small context
length of an LLM. To overcome this issue, most existing works focus on
retrieving the relevant context from the document, representing them as plain
text. However, documents such as PDFs, web pages, and presentations are
naturally structured with different pages, tables, sections, and so on.
Representing such structured documents as plain text is incongruous with the
user's mental model of these documents with rich structure. When a system has
to query the document for context, this incongruity is brought to the fore, and
seemingly trivial questions can trip up the QA system. To bridge this
fundamental gap in handling structured documents, we propose an approach called
PDFTriage that enables models to retrieve the context based on either structure
or content. Our experiments demonstrate the effectiveness of the proposed
PDFTriage-augmented models across several classes of questions where existing
retrieval-augmented LLMs fail. To facilitate further research on this
fundamental problem, we release our benchmark dataset consisting of 900+
human-generated questions over 80 structured documents from 10 different
categories of question types for document QA.