Planificar y Resolver: Mejorando el Razonamiento de Cadena de Pensamiento en Cero Disparos mediante Modelos de Lenguaje de Gran Escala

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente un rendimiento impresionante en diversas tareas de procesamiento del lenguaje natural (NLP). Para abordar tareas de razonamiento de múltiples pasos, el enfoque de few-shot chain-of-thought (CoT) incluye algunas demostraciones manualmente elaboradas de razonamiento paso a paso, lo que permite a los LLMs generar explícitamente pasos de razonamiento y mejorar su precisión en tareas de razonamiento. Para eliminar el esfuerzo manual, Zero-shot-CoT concatena el enunciado del problema objetivo con "Pensemos paso a paso" como indicación de entrada para los LLMs. A pesar del éxito de Zero-shot-CoT, aún enfrenta tres problemas: errores de cálculo, errores de pasos faltantes y errores de malentendido semántico. Para abordar los errores de pasos faltantes, proponemos Plan-and-Solve (PS) Prompting. Este enfoque consta de dos componentes: primero, elaborar un plan para dividir la tarea completa en subtareas más pequeñas, y luego ejecutar las subtareas según el plan. Para abordar los errores de cálculo y mejorar la calidad de los pasos de razonamiento generados, extendemos PS Prompting con instrucciones más detalladas y derivamos PS+ Prompting. Evaluamos nuestra estrategia de indicación propuesta en diez conjuntos de datos que abarcan tres problemas de razonamiento. Los resultados experimentales con GPT-3 muestran que nuestra propuesta de indicación zero-shot supera consistentemente a Zero-shot-CoT en todos los conjuntos de datos por un amplio margen, es comparable o supera a Zero-shot-Program-of-Thought Prompting, y tiene un rendimiento comparable con 8-shot CoT Prompting en el problema de razonamiento matemático. El código se puede encontrar en https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.

English

Large language models (LLMs) have recently been shown to deliver impressive performance in various NLP tasks. To tackle multi-step reasoning tasks, few-shot chain-of-thought (CoT) prompting includes a few manually crafted step-by-step reasoning demonstrations which enable LLMs to explicitly generate reasoning steps and improve their reasoning task accuracy. To eliminate the manual effort, Zero-shot-CoT concatenates the target problem statement with "Let's think step by step" as an input prompt to LLMs. Despite the success of Zero-shot-CoT, it still suffers from three pitfalls: calculation errors, missing-step errors, and semantic misunderstanding errors. To address the missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of two components: first, devising a plan to divide the entire task into smaller subtasks, and then carrying out the subtasks according to the plan. To address the calculation errors and improve the quality of generated reasoning steps, we extend PS prompting with more detailed instructions and derive PS+ prompting. We evaluate our proposed prompting strategy on ten datasets across three reasoning problems. The experimental results over GPT-3 show that our proposed zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought Prompting, and has comparable performance with 8-shot CoT prompting on the math reasoning problem. The code can be found at https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.

Planificar y Resolver: Mejorando el Razonamiento de Cadena de Pensamiento en Cero Disparos mediante Modelos de Lenguaje de Gran Escala

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

Resumen

Support