PDFTriage: Preguntas y Respuestas sobre Documentos Largos y Estructurados
PDFTriage: Question Answering over Long, Structured Documents
September 16, 2023
Autores: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) enfrentan problemas en la tarea de respuesta a preguntas sobre documentos (QA, por sus siglas en inglés) cuando el documento no cabe en el limitado contexto que puede manejar un LLM. Para superar este problema, la mayoría de los trabajos existentes se centran en recuperar el contexto relevante del documento, representándolo como texto plano. Sin embargo, documentos como PDFs, páginas web y presentaciones tienen una estructura natural compuesta por diferentes páginas, tablas, secciones, entre otros elementos. Representar estos documentos estructurados como texto plano no se alinea con el modelo mental que tienen los usuarios sobre estos documentos, los cuales poseen una estructura rica. Cuando un sistema necesita consultar el documento para obtener contexto, esta incongruencia se hace evidente, y preguntas aparentemente triviales pueden confundir al sistema de QA. Para cerrar esta brecha fundamental en el manejo de documentos estructurados, proponemos un enfoque llamado PDFTriage que permite a los modelos recuperar el contexto basándose tanto en la estructura como en el contenido. Nuestros experimentos demuestran la efectividad de los modelos potenciados con PDFTriage en varias clases de preguntas donde los LLMs mejorados con recuperación de contexto existentes fallan. Para facilitar más investigaciones sobre este problema fundamental, publicamos nuestro conjunto de datos de referencia, que incluye más de 900 preguntas generadas por humanos sobre 80 documentos estructurados, abarcando 10 categorías diferentes de tipos de preguntas para QA sobre documentos.
English
Large Language Models (LLMs) have issues with document question answering
(QA) in situations where the document is unable to fit in the small context
length of an LLM. To overcome this issue, most existing works focus on
retrieving the relevant context from the document, representing them as plain
text. However, documents such as PDFs, web pages, and presentations are
naturally structured with different pages, tables, sections, and so on.
Representing such structured documents as plain text is incongruous with the
user's mental model of these documents with rich structure. When a system has
to query the document for context, this incongruity is brought to the fore, and
seemingly trivial questions can trip up the QA system. To bridge this
fundamental gap in handling structured documents, we propose an approach called
PDFTriage that enables models to retrieve the context based on either structure
or content. Our experiments demonstrate the effectiveness of the proposed
PDFTriage-augmented models across several classes of questions where existing
retrieval-augmented LLMs fail. To facilitate further research on this
fundamental problem, we release our benchmark dataset consisting of 900+
human-generated questions over 80 structured documents from 10 different
categories of question types for document QA.