Prompt Engineering voor een Prompt Engineer

Samenvatting

Prompt engineering is een uitdagende maar cruciale taak voor het optimaliseren van de prestaties van grote taalmodellen (LLM's). Het vereist complexe redenering om de fouten van het model te onderzoeken, hypothesen te vormen over wat er ontbreekt of misleidend is in de huidige prompt, en de taak duidelijk te communiceren. Hoewel recente werken aangeven dat LLM's gemetaprompt kunnen worden om automatische prompt engineering uit te voeren, worden hun potentieel mogelijk niet volledig benut vanwege het ontbreken van voldoende begeleiding om complexe redeneervaardigheden in LLM's in de metaprompt te ontlokken. In dit werk onderzoeken we het probleem van "prompt engineering van een prompt engineer" -- het construeren van een metaprompt die LLM's effectiever begeleidt bij het uitvoeren van automatische prompt engineering. We introduceren en analyseren belangrijke componenten, zoals een stapsgewijs redeneersjabloon en contextspecificatie, die leiden tot verbeterde prestaties. Daarnaast introduceren we, geïnspireerd door veelvoorkomende optimalisatieconcepten zoals batchgrootte, stapgrootte en momentum, hun verbaal uitgedrukte tegenhangers in de metaprompt en onderzoeken we hun effecten. Onze uiteindelijke methode, genaamd PE2, vindt een prompt die "let's think step by step" overtreft met 6,3% op de MultiArith-dataset en 3,1% op de GSM8K-dataset. Om de veelzijdigheid ervan aan te tonen, passen we PE2 toe op de Instruction Induction-benchmark, een reeks tegenfactuele taken, en een uitgebreide, real-world industriële prompt. In deze settings behaalt PE2 sterke prestaties en overtreft het eerdere automatische prompt engineering-baselines. Verder laten we zien dat PE2 zinvolle en gerichte promptbewerkingen maakt, foutieve of onvolledige prompts verbetert, en niet-triviale tegenfactuele redeneervaardigheden vertoont.

English

Prompt engineering is a challenging yet crucial task for optimizing the performance of large language models (LLMs). It requires complex reasoning to examine the model's errors, hypothesize what is missing or misleading in the current prompt, and communicate the task with clarity. While recent works indicate that LLMs can be meta-prompted to perform automatic prompt engineering, their potentials may not be fully untapped due to the lack of sufficient guidance to elicit complex reasoning capabilities in LLMs in the meta-prompt. In this work, we investigate the problem of "prompt engineering a prompt engineer" -- constructing a meta-prompt that more effectively guides LLMs to perform automatic prompt engineering. We introduce and analyze key components, such as a step-by-step reasoning template and context specification, which lead to improved performance. In addition, inspired by common optimization concepts such as batch size, step size and momentum, we introduce their verbalized counterparts to the meta-prompt and investigate their effects. Our final method, named PE2, finds a prompt that outperforms "let's think step by step" by 6.3% on the MultiArith dataset and 3.1% on the GSM8K dataset. To demonstrate its versatility, we apply PE2 to the Instruction Induction benchmark, a suite of counterfactual tasks, and a lengthy, real-world industrial prompt. In these settings, PE2 achieves strong performance and outperforms prior automatic prompt engineering baselines. Further, we show that PE2 makes meaningful and targeted prompt edits, amends erroneous or incomplete prompts, and presents non-trivial counterfactual reasoning abilities.

Prompt Engineering voor een Prompt Engineer

Prompt Engineering a Prompt Engineer

Samenvatting

Support