PDFTriage: 長文で構造化されたドキュメントに対する質問応答
PDFTriage: Question Answering over Long, Structured Documents
September 16, 2023
著者: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI
要旨
大規模言語モデル(LLM)は、ドキュメントがLLMの小さなコンテキスト長に収まらない状況でのドキュメント質問応答(QA)に課題を抱えています。この問題を克服するため、既存の研究の多くは、ドキュメントから関連するコンテキストを検索し、それをプレーンテキストとして表現することに焦点を当てています。しかし、PDF、ウェブページ、プレゼンテーションなどのドキュメントは、異なるページ、表、セクションなどで自然に構造化されています。このような構造化されたドキュメントをプレーンテキストとして表現することは、ユーザーのメンタルモデルと整合性がありません。システムがドキュメントに対してコンテキストを問い合わせる必要がある場合、この不整合が顕在化し、一見簡単な質問でもQAシステムを混乱させることがあります。構造化ドキュメントを扱う上でのこの根本的なギャップを埋めるため、我々はPDFTriageというアプローチを提案します。このアプローチでは、モデルが構造またはコンテンツに基づいてコンテキストを検索できるようにします。我々の実験では、既存の検索拡張LLMが失敗するいくつかの質問クラスにおいて、提案されたPDFTriage拡張モデルの有効性が実証されました。この根本的な問題に関するさらなる研究を促進するため、我々は10の異なる質問タイプのカテゴリにわたる80の構造化ドキュメントに対して900以上の人間が生成した質問を含むベンチマークデータセットを公開します。
English
Large Language Models (LLMs) have issues with document question answering
(QA) in situations where the document is unable to fit in the small context
length of an LLM. To overcome this issue, most existing works focus on
retrieving the relevant context from the document, representing them as plain
text. However, documents such as PDFs, web pages, and presentations are
naturally structured with different pages, tables, sections, and so on.
Representing such structured documents as plain text is incongruous with the
user's mental model of these documents with rich structure. When a system has
to query the document for context, this incongruity is brought to the fore, and
seemingly trivial questions can trip up the QA system. To bridge this
fundamental gap in handling structured documents, we propose an approach called
PDFTriage that enables models to retrieve the context based on either structure
or content. Our experiments demonstrate the effectiveness of the proposed
PDFTriage-augmented models across several classes of questions where existing
retrieval-augmented LLMs fail. To facilitate further research on this
fundamental problem, we release our benchmark dataset consisting of 900+
human-generated questions over 80 structured documents from 10 different
categories of question types for document QA.