PEARL: Guiando a Modelos de Lenguaje de Gran Escala para Planificar y Ejecutar Acciones en Documentos Extensos
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents
May 23, 2023
Autores: Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer
cs.AI
Resumen
Estrategias como el prompting de cadena de pensamiento mejoran el rendimiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en tareas de razonamiento complejo al descomponer ejemplos de entrada en pasos intermedios. Sin embargo, aún no está claro cómo aplicar tales métodos para razonar sobre documentos largos, en los que tanto la descomposición como el resultado de cada paso intermedio son difíciles de obtener. En este trabajo, proponemos PEARL, un marco de prompting para mejorar el razonamiento sobre documentos largos, que consta de tres etapas: minería de acciones, formulación de planes y ejecución de planes. Más específicamente, dada una pregunta sobre un documento largo, PEARL descompone la pregunta en una secuencia de acciones (por ejemplo, RESUMIR, ENCONTRAR_EVENTO, ENCONTRAR_RELACIÓN) y luego las ejecuta sobre el documento para obtener la respuesta. Cada etapa de PEARL se implementa mediante prompting de pocos ejemplos o sin ejemplos (zero-shot o few-shot) en LLMs (en nuestro trabajo, GPT-4) con una intervención humana mínima. Evaluamos PEARL en un subconjunto desafiante del conjunto de datos QuALITY, que contiene preguntas que requieren razonamiento complejo sobre textos narrativos largos. PEARL supera al prompting zero-shot y de cadena de pensamiento en este conjunto de datos, y los experimentos de ablación muestran que cada etapa de PEARL es crítica para su rendimiento. En general, PEARL es un primer paso hacia el aprovechamiento de los LLMs para razonar sobre documentos largos.
English
Strategies such as chain-of-thought prompting improve the performance of
large language models (LLMs) on complex reasoning tasks by decomposing input
examples into intermediate steps. However, it remains unclear how to apply such
methods to reason over long input documents, in which both the decomposition
and the output of each intermediate step are non-trivial to obtain. In this
work, we propose PEARL, a prompting framework to improve reasoning over long
documents, which consists of three stages: action mining, plan formulation, and
plan execution. More specifically, given a question about a long document,
PEARL decomposes the question into a sequence of actions (e.g., SUMMARIZE,
FIND_EVENT, FIND_RELATION) and then executes them over the document to obtain
the answer. Each stage of PEARL is implemented via zero-shot or few-shot
prompting of LLMs (in our work, GPT-4) with minimal human input. We evaluate
PEARL on a challenging subset of the QuALITY dataset, which contains questions
that require complex reasoning over long narrative texts. PEARL outperforms
zero-shot and chain-of-thought prompting on this dataset, and ablation
experiments show that each stage of PEARL is critical to its performance.
Overall, PEARL is a first step towards leveraging LLMs to reason over long
documents.