Plan-en-Oplos Prompting: Verbetering van Zero-Shot Ketting-van-Gedachten Redenering door Grote Taalmodellen
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
May 6, 2023
Auteurs: Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, Ee-Peng Lim
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben recentelijk indrukwekkende prestaties geleverd in diverse NLP-taken. Om meerstaps redeneertaken aan te pakken, omvat few-shot chain-of-thought (CoT) prompting een aantal handmatig opgestelde stapsgewijze redeneerdemonstraties die LLMs in staat stellen om expliciet redeneerstappen te genereren en hun nauwkeurigheid bij redeneertaken te verbeteren. Om de handmatige inspanning te elimineren, voegt Zero-shot-CoT de doelprobleemstelling samen met "Laten we stap voor stap nadenken" als invoerprompt voor LLMs. Ondanks het succes van Zero-shot-CoT, kampt het nog steeds met drie valkuilen: rekenfouten, ontbrekende-stap-fouten en semantische misinterpretatiefouten. Om de ontbrekende-stap-fouten aan te pakken, stellen we Plan-and-Solve (PS) Prompting voor. Dit bestaat uit twee componenten: eerst het opstellen van een plan om de gehele taak in kleinere subtaken te verdelen, en vervolgens het uitvoeren van de subtaken volgens het plan. Om de rekenfouten aan te pakken en de kwaliteit van de gegenereerde redeneerstappen te verbeteren, breiden we PS prompting uit met meer gedetailleerde instructies en leiden we PS+ prompting af. We evalueren onze voorgestelde promptingstrategie op tien datasets verspreid over drie redeneerproblemen. De experimentele resultaten over GPT-3 tonen aan dat onze voorgestelde zero-shot prompting consistent beter presteert dan Zero-shot-CoT over alle datasets met een grote marge, vergelijkbaar is met of beter presteert dan Zero-shot-Program-of-Thought Prompting, en vergelijkbare prestaties levert met 8-shot CoT prompting bij het wiskundige redeneerprobleem. De code is te vinden op https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
English
Large language models (LLMs) have recently been shown to deliver impressive
performance in various NLP tasks. To tackle multi-step reasoning tasks,
few-shot chain-of-thought (CoT) prompting includes a few manually crafted
step-by-step reasoning demonstrations which enable LLMs to explicitly generate
reasoning steps and improve their reasoning task accuracy. To eliminate the
manual effort, Zero-shot-CoT concatenates the target problem statement with
"Let's think step by step" as an input prompt to LLMs. Despite the success of
Zero-shot-CoT, it still suffers from three pitfalls: calculation errors,
missing-step errors, and semantic misunderstanding errors. To address the
missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of
two components: first, devising a plan to divide the entire task into smaller
subtasks, and then carrying out the subtasks according to the plan. To address
the calculation errors and improve the quality of generated reasoning steps, we
extend PS prompting with more detailed instructions and derive PS+ prompting.
We evaluate our proposed prompting strategy on ten datasets across three
reasoning problems. The experimental results over GPT-3 show that our proposed
zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets
by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought
Prompting, and has comparable performance with 8-shot CoT prompting on the math
reasoning problem. The code can be found at
https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.