PDFTriage: 구조화된 장문 문서에 대한 질의응답
PDFTriage: Question Answering over Long, Structured Documents
September 16, 2023
저자: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI
초록
대형 언어 모델(LLM)은 문서가 LLM의 짧은 컨텍스트 길이에 맞지 않는 상황에서 문서 질의응답(QA)에 문제를 겪습니다. 이 문제를 해결하기 위해 기존 연구 대부분은 문서에서 관련 컨텍스트를 검색하여 이를 일반 텍스트로 표현하는 데 초점을 맞추고 있습니다. 그러나 PDF, 웹 페이지, 프레젠테이션과 같은 문서는 페이지, 표, 섹션 등으로 자연스럽게 구조화되어 있습니다. 이러한 구조화된 문서를 일반 텍스트로 표현하는 것은 사용자가 풍부한 구조를 가진 이러한 문서에 대해 가지고 있는 정신적 모델과 어울리지 않습니다. 시스템이 문서에서 컨텍스트를 질의해야 할 때, 이러한 불일치가 두드러지며, 사소해 보이는 질문도 QA 시스템을 혼란스럽게 할 수 있습니다. 구조화된 문서를 처리하는 데 있어 이러한 근본적인 격차를 해소하기 위해, 우리는 구조 또는 내용을 기반으로 컨텍스트를 검색할 수 있는 PDFTriage라는 접근 방식을 제안합니다. 우리의 실험은 기존의 검색 강화 LLM이 실패하는 여러 유형의 질문에서 제안된 PDFTriage 강화 모델의 효과성을 입증합니다. 이 근본적인 문제에 대한 추가 연구를 촉진하기 위해, 우리는 10가지 다른 질문 유형 카테고리에서 80개의 구조화된 문서에 대해 900개 이상의 인간이 생성한 질문으로 구성된 벤치마크 데이터셋을 공개합니다.
English
Large Language Models (LLMs) have issues with document question answering
(QA) in situations where the document is unable to fit in the small context
length of an LLM. To overcome this issue, most existing works focus on
retrieving the relevant context from the document, representing them as plain
text. However, documents such as PDFs, web pages, and presentations are
naturally structured with different pages, tables, sections, and so on.
Representing such structured documents as plain text is incongruous with the
user's mental model of these documents with rich structure. When a system has
to query the document for context, this incongruity is brought to the fore, and
seemingly trivial questions can trip up the QA system. To bridge this
fundamental gap in handling structured documents, we propose an approach called
PDFTriage that enables models to retrieve the context based on either structure
or content. Our experiments demonstrate the effectiveness of the proposed
PDFTriage-augmented models across several classes of questions where existing
retrieval-augmented LLMs fail. To facilitate further research on this
fundamental problem, we release our benchmark dataset consisting of 900+
human-generated questions over 80 structured documents from 10 different
categories of question types for document QA.