ChatPaper.aiChatPaper

PDFTriage: Preguntas y Respuestas sobre Documentos Largos y Estructurados

PDFTriage: Question Answering over Long, Structured Documents

September 16, 2023
Autores: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) enfrentan problemas en la tarea de respuesta a preguntas sobre documentos (QA, por sus siglas en inglés) cuando el documento no cabe en el limitado contexto que puede manejar un LLM. Para superar este problema, la mayoría de los trabajos existentes se centran en recuperar el contexto relevante del documento, representándolo como texto plano. Sin embargo, documentos como PDFs, páginas web y presentaciones tienen una estructura natural compuesta por diferentes páginas, tablas, secciones, entre otros elementos. Representar estos documentos estructurados como texto plano no se alinea con el modelo mental que tienen los usuarios sobre estos documentos, los cuales poseen una estructura rica. Cuando un sistema necesita consultar el documento para obtener contexto, esta incongruencia se hace evidente, y preguntas aparentemente triviales pueden confundir al sistema de QA. Para cerrar esta brecha fundamental en el manejo de documentos estructurados, proponemos un enfoque llamado PDFTriage que permite a los modelos recuperar el contexto basándose tanto en la estructura como en el contenido. Nuestros experimentos demuestran la efectividad de los modelos potenciados con PDFTriage en varias clases de preguntas donde los LLMs mejorados con recuperación de contexto existentes fallan. Para facilitar más investigaciones sobre este problema fundamental, publicamos nuestro conjunto de datos de referencia, que incluye más de 900 preguntas generadas por humanos sobre 80 documentos estructurados, abarcando 10 categorías diferentes de tipos de preguntas para QA sobre documentos.
English
Large Language Models (LLMs) have issues with document question answering (QA) in situations where the document is unable to fit in the small context length of an LLM. To overcome this issue, most existing works focus on retrieving the relevant context from the document, representing them as plain text. However, documents such as PDFs, web pages, and presentations are naturally structured with different pages, tables, sections, and so on. Representing such structured documents as plain text is incongruous with the user's mental model of these documents with rich structure. When a system has to query the document for context, this incongruity is brought to the fore, and seemingly trivial questions can trip up the QA system. To bridge this fundamental gap in handling structured documents, we propose an approach called PDFTriage that enables models to retrieve the context based on either structure or content. Our experiments demonstrate the effectiveness of the proposed PDFTriage-augmented models across several classes of questions where existing retrieval-augmented LLMs fail. To facilitate further research on this fundamental problem, we release our benchmark dataset consisting of 900+ human-generated questions over 80 structured documents from 10 different categories of question types for document QA.
PDF549December 15, 2024