PEARL: Anregung großer Sprachmodelle zur Planung und Ausführung von Aktionen über lange Dokumente
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents
May 23, 2023
Autoren: Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer
cs.AI
Zusammenfassung
Strategien wie das Chain-of-Thought-Prompting verbessern die Leistung von großen Sprachmodellen (LLMs) bei komplexen Denkaufgaben, indem Eingabebeispiele in Zwischenschritte zerlegt werden. Es bleibt jedoch unklar, wie solche Methoden auf lange Eingabedokumente angewendet werden können, bei denen sowohl die Zerlegung als auch die Ausgabe jedes Zwischenschritts nicht trivial zu ermitteln sind. In dieser Arbeit schlagen wir PEARL vor, ein Prompting-Framework zur Verbesserung des Denkens über lange Dokumente, das aus drei Phasen besteht: Aktionsgewinnung, Planformulierung und Planausführung. Genauer gesagt zerlegt PEARL eine Frage zu einem langen Dokument in eine Abfolge von Aktionen (z. B. ZUSAMMENFASSEN, EREIGNIS_FINDEN, BEZIEHUNG_FINDEN) und führt diese dann über das Dokument aus, um die Antwort zu erhalten. Jede Phase von PEARL wird durch Zero-Shot- oder Few-Shot-Prompting von LLMs (in unserer Arbeit GPT-4) mit minimalem menschlichen Eingaben implementiert. Wir evaluieren PEARL auf einer anspruchsvollen Teilmenge des QuALITY-Datensatzes, der Fragen enthält, die komplexes Denken über lange narrative Texte erfordern. PEARL übertrifft Zero-Shot- und Chain-of-Thought-Prompting auf diesem Datensatz, und Ablationsexperimente zeigen, dass jede Phase von PEARL entscheidend für seine Leistung ist. Insgesamt ist PEARL ein erster Schritt, um LLMs für das Denken über lange Dokumente zu nutzen.
English
Strategies such as chain-of-thought prompting improve the performance of
large language models (LLMs) on complex reasoning tasks by decomposing input
examples into intermediate steps. However, it remains unclear how to apply such
methods to reason over long input documents, in which both the decomposition
and the output of each intermediate step are non-trivial to obtain. In this
work, we propose PEARL, a prompting framework to improve reasoning over long
documents, which consists of three stages: action mining, plan formulation, and
plan execution. More specifically, given a question about a long document,
PEARL decomposes the question into a sequence of actions (e.g., SUMMARIZE,
FIND_EVENT, FIND_RELATION) and then executes them over the document to obtain
the answer. Each stage of PEARL is implemented via zero-shot or few-shot
prompting of LLMs (in our work, GPT-4) with minimal human input. We evaluate
PEARL on a challenging subset of the QuALITY dataset, which contains questions
that require complex reasoning over long narrative texts. PEARL outperforms
zero-shot and chain-of-thought prompting on this dataset, and ablation
experiments show that each stage of PEARL is critical to its performance.
Overall, PEARL is a first step towards leveraging LLMs to reason over long
documents.