Prompting Plan-et-Résoudre : Amélioration du raisonnement en chaîne de pensée en contexte zéro-shot par les grands modèles de langage
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
May 6, 2023
Auteurs: Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, Ee-Peng Lim
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont récemment démontré des performances impressionnantes dans diverses tâches de traitement du langage naturel (NLP). Pour aborder les tâches de raisonnement en plusieurs étapes, l'incitation par chaîne de pensée (CoT) en few-shot inclut quelques démonstrations manuelles de raisonnement étape par étape, permettant aux LLMs de générer explicitement des étapes de raisonnement et d'améliorer leur précision dans les tâches de raisonnement. Pour éliminer l'effort manuel, Zero-shot-CoT concatène l'énoncé du problème cible avec "Réfléchissons étape par étape" comme invite d'entrée pour les LLMs. Malgré le succès de Zero-shot-CoT, il souffre encore de trois écueils : les erreurs de calcul, les erreurs d'étapes manquantes et les erreurs de mauvaise interprétation sémantique. Pour résoudre les erreurs d'étapes manquantes, nous proposons l'incitation Plan-and-Solve (PS). Elle se compose de deux éléments : d'abord, élaborer un plan pour diviser la tâche entière en sous-tâches plus petites, puis exécuter les sous-tâches selon le plan. Pour résoudre les erreurs de calcul et améliorer la qualité des étapes de raisonnement générées, nous étendons l'incitation PS avec des instructions plus détaillées et dérivons l'incitation PS+. Nous évaluons notre stratégie d'incitation proposée sur dix jeux de données couvrant trois problèmes de raisonnement. Les résultats expérimentaux sur GPT-3 montrent que notre incitation zero-shot proposée surpasse systématiquement Zero-shot-CoT sur tous les jeux de données par une large marge, est comparable ou dépasse l'incitation Zero-shot-Program-of-Thought, et a une performance comparable à l'incitation CoT en 8-shot sur le problème de raisonnement mathématique. Le code est disponible à l'adresse suivante : https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
English
Large language models (LLMs) have recently been shown to deliver impressive
performance in various NLP tasks. To tackle multi-step reasoning tasks,
few-shot chain-of-thought (CoT) prompting includes a few manually crafted
step-by-step reasoning demonstrations which enable LLMs to explicitly generate
reasoning steps and improve their reasoning task accuracy. To eliminate the
manual effort, Zero-shot-CoT concatenates the target problem statement with
"Let's think step by step" as an input prompt to LLMs. Despite the success of
Zero-shot-CoT, it still suffers from three pitfalls: calculation errors,
missing-step errors, and semantic misunderstanding errors. To address the
missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of
two components: first, devising a plan to divide the entire task into smaller
subtasks, and then carrying out the subtasks according to the plan. To address
the calculation errors and improve the quality of generated reasoning steps, we
extend PS prompting with more detailed instructions and derive PS+ prompting.
We evaluate our proposed prompting strategy on ten datasets across three
reasoning problems. The experimental results over GPT-3 show that our proposed
zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets
by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought
Prompting, and has comparable performance with 8-shot CoT prompting on the math
reasoning problem. The code can be found at
https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.