PDFTriage: Resposta a Perguntas em Documentos Longos e Estruturados
PDFTriage: Question Answering over Long, Structured Documents
September 16, 2023
Autores: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) enfrentam desafios na tarefa de resposta a perguntas sobre documentos (QA) em situações onde o documento não pode ser acomodado no pequeno comprimento de contexto de um LLM. Para superar esse problema, a maioria dos trabalhos existentes se concentra em recuperar o contexto relevante do documento, representando-o como texto simples. No entanto, documentos como PDFs, páginas da web e apresentações são naturalmente estruturados com diferentes páginas, tabelas, seções e assim por diante. Representar esses documentos estruturados como texto simples é incongruente com o modelo mental que os usuários têm desses documentos, que possuem uma estrutura rica. Quando um sistema precisa consultar o documento para obter contexto, essa incongruência se torna evidente, e perguntas aparentemente triviais podem confundir o sistema de QA. Para preencher essa lacuna fundamental no tratamento de documentos estruturados, propomos uma abordagem chamada PDFTriage, que permite que os modelos recuperem o contexto com base na estrutura ou no conteúdo. Nossos experimentos demonstram a eficácia dos modelos aprimorados com PDFTriage em várias classes de perguntas onde os LLMs aprimorados com recuperação de contexto existentes falham. Para facilitar pesquisas adicionais sobre esse problema fundamental, disponibilizamos nosso conjunto de dados de referência, que consiste em mais de 900 perguntas geradas por humanos sobre 80 documentos estruturados, abrangendo 10 categorias diferentes de tipos de perguntas para QA em documentos.
English
Large Language Models (LLMs) have issues with document question answering
(QA) in situations where the document is unable to fit in the small context
length of an LLM. To overcome this issue, most existing works focus on
retrieving the relevant context from the document, representing them as plain
text. However, documents such as PDFs, web pages, and presentations are
naturally structured with different pages, tables, sections, and so on.
Representing such structured documents as plain text is incongruous with the
user's mental model of these documents with rich structure. When a system has
to query the document for context, this incongruity is brought to the fore, and
seemingly trivial questions can trip up the QA system. To bridge this
fundamental gap in handling structured documents, we propose an approach called
PDFTriage that enables models to retrieve the context based on either structure
or content. Our experiments demonstrate the effectiveness of the proposed
PDFTriage-augmented models across several classes of questions where existing
retrieval-augmented LLMs fail. To facilitate further research on this
fundamental problem, we release our benchmark dataset consisting of 900+
human-generated questions over 80 structured documents from 10 different
categories of question types for document QA.