ChatPaper.aiChatPaper

PDFTriage: 구조화된 장문 문서에 대한 질의응답

PDFTriage: Question Answering over Long, Structured Documents

September 16, 2023
저자: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
cs.AI

초록

대형 언어 모델(LLM)은 문서가 LLM의 짧은 컨텍스트 길이에 맞지 않는 상황에서 문서 질의응답(QA)에 문제를 겪습니다. 이 문제를 해결하기 위해 기존 연구 대부분은 문서에서 관련 컨텍스트를 검색하여 이를 일반 텍스트로 표현하는 데 초점을 맞추고 있습니다. 그러나 PDF, 웹 페이지, 프레젠테이션과 같은 문서는 페이지, 표, 섹션 등으로 자연스럽게 구조화되어 있습니다. 이러한 구조화된 문서를 일반 텍스트로 표현하는 것은 사용자가 풍부한 구조를 가진 이러한 문서에 대해 가지고 있는 정신적 모델과 어울리지 않습니다. 시스템이 문서에서 컨텍스트를 질의해야 할 때, 이러한 불일치가 두드러지며, 사소해 보이는 질문도 QA 시스템을 혼란스럽게 할 수 있습니다. 구조화된 문서를 처리하는 데 있어 이러한 근본적인 격차를 해소하기 위해, 우리는 구조 또는 내용을 기반으로 컨텍스트를 검색할 수 있는 PDFTriage라는 접근 방식을 제안합니다. 우리의 실험은 기존의 검색 강화 LLM이 실패하는 여러 유형의 질문에서 제안된 PDFTriage 강화 모델의 효과성을 입증합니다. 이 근본적인 문제에 대한 추가 연구를 촉진하기 위해, 우리는 10가지 다른 질문 유형 카테고리에서 80개의 구조화된 문서에 대해 900개 이상의 인간이 생성한 질문으로 구성된 벤치마크 데이터셋을 공개합니다.
English
Large Language Models (LLMs) have issues with document question answering (QA) in situations where the document is unable to fit in the small context length of an LLM. To overcome this issue, most existing works focus on retrieving the relevant context from the document, representing them as plain text. However, documents such as PDFs, web pages, and presentations are naturally structured with different pages, tables, sections, and so on. Representing such structured documents as plain text is incongruous with the user's mental model of these documents with rich structure. When a system has to query the document for context, this incongruity is brought to the fore, and seemingly trivial questions can trip up the QA system. To bridge this fundamental gap in handling structured documents, we propose an approach called PDFTriage that enables models to retrieve the context based on either structure or content. Our experiments demonstrate the effectiveness of the proposed PDFTriage-augmented models across several classes of questions where existing retrieval-augmented LLMs fail. To facilitate further research on this fundamental problem, we release our benchmark dataset consisting of 900+ human-generated questions over 80 structured documents from 10 different categories of question types for document QA.
PDF549December 15, 2024