ChatPaper.aiChatPaper

Prompting Plan-et-Résoudre : Amélioration du raisonnement en chaîne de pensée en contexte zéro-shot par les grands modèles de langage

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

May 6, 2023
Auteurs: Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, Ee-Peng Lim
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont récemment démontré des performances impressionnantes dans diverses tâches de traitement du langage naturel (NLP). Pour aborder les tâches de raisonnement en plusieurs étapes, l'incitation par chaîne de pensée (CoT) en few-shot inclut quelques démonstrations manuelles de raisonnement étape par étape, permettant aux LLMs de générer explicitement des étapes de raisonnement et d'améliorer leur précision dans les tâches de raisonnement. Pour éliminer l'effort manuel, Zero-shot-CoT concatène l'énoncé du problème cible avec "Réfléchissons étape par étape" comme invite d'entrée pour les LLMs. Malgré le succès de Zero-shot-CoT, il souffre encore de trois écueils : les erreurs de calcul, les erreurs d'étapes manquantes et les erreurs de mauvaise interprétation sémantique. Pour résoudre les erreurs d'étapes manquantes, nous proposons l'incitation Plan-and-Solve (PS). Elle se compose de deux éléments : d'abord, élaborer un plan pour diviser la tâche entière en sous-tâches plus petites, puis exécuter les sous-tâches selon le plan. Pour résoudre les erreurs de calcul et améliorer la qualité des étapes de raisonnement générées, nous étendons l'incitation PS avec des instructions plus détaillées et dérivons l'incitation PS+. Nous évaluons notre stratégie d'incitation proposée sur dix jeux de données couvrant trois problèmes de raisonnement. Les résultats expérimentaux sur GPT-3 montrent que notre incitation zero-shot proposée surpasse systématiquement Zero-shot-CoT sur tous les jeux de données par une large marge, est comparable ou dépasse l'incitation Zero-shot-Program-of-Thought, et a une performance comparable à l'incitation CoT en 8-shot sur le problème de raisonnement mathématique. Le code est disponible à l'adresse suivante : https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
English
Large language models (LLMs) have recently been shown to deliver impressive performance in various NLP tasks. To tackle multi-step reasoning tasks, few-shot chain-of-thought (CoT) prompting includes a few manually crafted step-by-step reasoning demonstrations which enable LLMs to explicitly generate reasoning steps and improve their reasoning task accuracy. To eliminate the manual effort, Zero-shot-CoT concatenates the target problem statement with "Let's think step by step" as an input prompt to LLMs. Despite the success of Zero-shot-CoT, it still suffers from three pitfalls: calculation errors, missing-step errors, and semantic misunderstanding errors. To address the missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of two components: first, devising a plan to divide the entire task into smaller subtasks, and then carrying out the subtasks according to the plan. To address the calculation errors and improve the quality of generated reasoning steps, we extend PS prompting with more detailed instructions and derive PS+ prompting. We evaluate our proposed prompting strategy on ten datasets across three reasoning problems. The experimental results over GPT-3 show that our proposed zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought Prompting, and has comparable performance with 8-shot CoT prompting on the math reasoning problem. The code can be found at https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
PDF31December 15, 2024