Planificar y Resolver: Mejorando el Razonamiento de Cadena de Pensamiento en Cero Disparos mediante Modelos de Lenguaje de Gran Escala
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
May 6, 2023
Autores: Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, Ee-Peng Lim
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente un rendimiento impresionante en diversas tareas de procesamiento del lenguaje natural (NLP). Para abordar tareas de razonamiento de múltiples pasos, el enfoque de few-shot chain-of-thought (CoT) incluye algunas demostraciones manualmente elaboradas de razonamiento paso a paso, lo que permite a los LLMs generar explícitamente pasos de razonamiento y mejorar su precisión en tareas de razonamiento. Para eliminar el esfuerzo manual, Zero-shot-CoT concatena el enunciado del problema objetivo con "Pensemos paso a paso" como indicación de entrada para los LLMs. A pesar del éxito de Zero-shot-CoT, aún enfrenta tres problemas: errores de cálculo, errores de pasos faltantes y errores de malentendido semántico. Para abordar los errores de pasos faltantes, proponemos Plan-and-Solve (PS) Prompting. Este enfoque consta de dos componentes: primero, elaborar un plan para dividir la tarea completa en subtareas más pequeñas, y luego ejecutar las subtareas según el plan. Para abordar los errores de cálculo y mejorar la calidad de los pasos de razonamiento generados, extendemos PS Prompting con instrucciones más detalladas y derivamos PS+ Prompting. Evaluamos nuestra estrategia de indicación propuesta en diez conjuntos de datos que abarcan tres problemas de razonamiento. Los resultados experimentales con GPT-3 muestran que nuestra propuesta de indicación zero-shot supera consistentemente a Zero-shot-CoT en todos los conjuntos de datos por un amplio margen, es comparable o supera a Zero-shot-Program-of-Thought Prompting, y tiene un rendimiento comparable con 8-shot CoT Prompting en el problema de razonamiento matemático. El código se puede encontrar en https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
English
Large language models (LLMs) have recently been shown to deliver impressive
performance in various NLP tasks. To tackle multi-step reasoning tasks,
few-shot chain-of-thought (CoT) prompting includes a few manually crafted
step-by-step reasoning demonstrations which enable LLMs to explicitly generate
reasoning steps and improve their reasoning task accuracy. To eliminate the
manual effort, Zero-shot-CoT concatenates the target problem statement with
"Let's think step by step" as an input prompt to LLMs. Despite the success of
Zero-shot-CoT, it still suffers from three pitfalls: calculation errors,
missing-step errors, and semantic misunderstanding errors. To address the
missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of
two components: first, devising a plan to divide the entire task into smaller
subtasks, and then carrying out the subtasks according to the plan. To address
the calculation errors and improve the quality of generated reasoning steps, we
extend PS prompting with more detailed instructions and derive PS+ prompting.
We evaluate our proposed prompting strategy on ten datasets across three
reasoning problems. The experimental results over GPT-3 show that our proposed
zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets
by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought
Prompting, and has comparable performance with 8-shot CoT prompting on the math
reasoning problem. The code can be found at
https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.