PDFTriage: Вопросно-ответные системы для работы с длинными структурированными документами
PDFTriage: Question Answering over Long, Structured Documents
September 16, 2023
Авторы: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Аннотация
Крупные языковые модели (LLM) сталкиваются с проблемами при ответах на вопросы по документам (QA) в ситуациях, когда документ не помещается в ограниченный контекст модели. Чтобы преодолеть эту проблему, большинство существующих работ сосредоточено на извлечении релевантного контекста из документа и его представлении в виде простого текста. Однако документы, такие как PDF-файлы, веб-страницы и презентации, имеют естественную структуру, включающую различные страницы, таблицы, разделы и т.д. Представление таких структурированных документов в виде простого текста не соответствует ментальной модели пользователя, которая учитывает богатую структуру документа. Когда системе необходимо запросить контекст из документа, это несоответствие становится очевидным, и даже простые вопросы могут поставить QA-систему в тупик. Чтобы устранить этот фундаментальный разрыв в обработке структурированных документов, мы предлагаем подход под названием PDFTriage, который позволяет моделям извлекать контекст на основе структуры или содержания. Наши эксперименты демонстрируют эффективность предложенных моделей, усиленных PDFTriage, в решении различных классов вопросов, с которыми не справляются существующие LLM, дополненные методами извлечения. Для содействия дальнейшим исследованиям этой фундаментальной проблемы мы публикуем наш эталонный набор данных, содержащий более 900 вопросов, созданных людьми, по 80 структурированным документам, охватывающим 10 различных категорий типов вопросов для QA по документам.
English
Large Language Models (LLMs) have issues with document question answering
(QA) in situations where the document is unable to fit in the small context
length of an LLM. To overcome this issue, most existing works focus on
retrieving the relevant context from the document, representing them as plain
text. However, documents such as PDFs, web pages, and presentations are
naturally structured with different pages, tables, sections, and so on.
Representing such structured documents as plain text is incongruous with the
user's mental model of these documents with rich structure. When a system has
to query the document for context, this incongruity is brought to the fore, and
seemingly trivial questions can trip up the QA system. To bridge this
fundamental gap in handling structured documents, we propose an approach called
PDFTriage that enables models to retrieve the context based on either structure
or content. Our experiments demonstrate the effectiveness of the proposed
PDFTriage-augmented models across several classes of questions where existing
retrieval-augmented LLMs fail. To facilitate further research on this
fundamental problem, we release our benchmark dataset consisting of 900+
human-generated questions over 80 structured documents from 10 different
categories of question types for document QA.