PEARL: 대형 언어 모델을 활용한 장문 문서에 대한 계획 수립 및 실행 유도
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents
May 23, 2023
저자: Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer
cs.AI
초록
체인 오브 사고 프롬프팅과 같은 전략은 입력 예제를 중간 단계로 분해함으로써 복잡한 추론 작업에서 대형 언어 모델(LLM)의 성능을 향상시킨다. 그러나 이러한 방법을 긴 입력 문서에 적용하여 추론하는 방법은 여전히 명확하지 않다. 이는 분해와 각 중간 단계의 출력을 얻는 것이 모두 간단하지 않기 때문이다. 본 연구에서는 긴 문서에 대한 추론을 개선하기 위한 프롬프팅 프레임워크인 PEARL을 제안한다. PEARL은 액션 마이닝, 계획 수립, 계획 실행의 세 단계로 구성된다. 구체적으로, 긴 문서에 대한 질문이 주어지면 PEARL은 질문을 일련의 액션(예: 요약, 이벤트 찾기, 관계 찾기)으로 분해한 후 이를 문서에 적용하여 답을 얻는다. PEARL의 각 단계는 최소한의 인간 입력을 통해 LLM(본 연구에서는 GPT-4)의 제로샷 또는 퓨샷 프롬프팅으로 구현된다. 우리는 PEARL을 긴 서사 텍스트에 대한 복잡한 추론이 필요한 QuALITY 데이터셋의 도전적인 하위 집합에서 평가한다. PEARL은 이 데이터셋에서 제로샷 및 체인 오브 사고 프롬프팅을 능가하며, 각 단계가 성능에 중요한 역할을 한다는 것을 보여주는 절제 실험을 수행한다. 전반적으로, PEARL은 LLM을 활용하여 긴 문서에 대해 추론하는 첫 번째 단계이다.
English
Strategies such as chain-of-thought prompting improve the performance of
large language models (LLMs) on complex reasoning tasks by decomposing input
examples into intermediate steps. However, it remains unclear how to apply such
methods to reason over long input documents, in which both the decomposition
and the output of each intermediate step are non-trivial to obtain. In this
work, we propose PEARL, a prompting framework to improve reasoning over long
documents, which consists of three stages: action mining, plan formulation, and
plan execution. More specifically, given a question about a long document,
PEARL decomposes the question into a sequence of actions (e.g., SUMMARIZE,
FIND_EVENT, FIND_RELATION) and then executes them over the document to obtain
the answer. Each stage of PEARL is implemented via zero-shot or few-shot
prompting of LLMs (in our work, GPT-4) with minimal human input. We evaluate
PEARL on a challenging subset of the QuALITY dataset, which contains questions
that require complex reasoning over long narrative texts. PEARL outperforms
zero-shot and chain-of-thought prompting on this dataset, and ablation
experiments show that each stage of PEARL is critical to its performance.
Overall, PEARL is a first step towards leveraging LLMs to reason over long
documents.