Ingénierie de Prompt pour un Ingénieur de Prompt

papers.abstract

L'ingénierie de prompts est une tâche complexe mais cruciale pour optimiser les performances des grands modèles de langage (LLMs). Elle nécessite un raisonnement approfondi pour analyser les erreurs du modèle, formuler des hypothèses sur ce qui manque ou induit en erreur dans le prompt actuel, et communiquer la tâche avec clarté. Bien que des travaux récents suggèrent que les LLMs peuvent être méta-promptés pour réaliser de l'ingénierie de prompts automatique, leur potentiel pourrait ne pas être pleinement exploité en raison d'un manque de guidance suffisante pour susciter des capacités de raisonnement complexe dans les méta-prompts. Dans ce travail, nous étudions le problème de "l'ingénierie de prompts pour un ingénieur de prompts" — la construction d'un méta-prompt qui guide plus efficacement les LLMs à réaliser de l'ingénierie de prompts automatique. Nous introduisons et analysons des composants clés, tels qu'un modèle de raisonnement étape par étape et une spécification de contexte, qui améliorent les performances. De plus, inspirés par des concepts d'optimisation courants comme la taille de lot, la taille de pas et la quantité de mouvement, nous introduisons leurs équivalents verbalisés dans le méta-prompt et étudions leurs effets. Notre méthode finale, nommée PE2, trouve un prompt qui surpasse "réfléchissons étape par étape" de 6,3 % sur le jeu de données MultiArith et de 3,1 % sur le jeu de données GSM8K. Pour démontrer sa polyvalence, nous appliquons PE2 au benchmark Instruction Induction, à un ensemble de tâches contrefactuelles et à un long prompt industriel réel. Dans ces contextes, PE2 obtient des performances solides et surpasse les bases antérieures d'ingénierie de prompts automatique. En outre, nous montrons que PE2 effectue des modifications de prompts ciblées et significatives, corrige des prompts erronés ou incomplets, et présente des capacités de raisonnement contrefactuel non triviales.

English

Prompt engineering is a challenging yet crucial task for optimizing the performance of large language models (LLMs). It requires complex reasoning to examine the model's errors, hypothesize what is missing or misleading in the current prompt, and communicate the task with clarity. While recent works indicate that LLMs can be meta-prompted to perform automatic prompt engineering, their potentials may not be fully untapped due to the lack of sufficient guidance to elicit complex reasoning capabilities in LLMs in the meta-prompt. In this work, we investigate the problem of "prompt engineering a prompt engineer" -- constructing a meta-prompt that more effectively guides LLMs to perform automatic prompt engineering. We introduce and analyze key components, such as a step-by-step reasoning template and context specification, which lead to improved performance. In addition, inspired by common optimization concepts such as batch size, step size and momentum, we introduce their verbalized counterparts to the meta-prompt and investigate their effects. Our final method, named PE2, finds a prompt that outperforms "let's think step by step" by 6.3% on the MultiArith dataset and 3.1% on the GSM8K dataset. To demonstrate its versatility, we apply PE2 to the Instruction Induction benchmark, a suite of counterfactual tasks, and a lengthy, real-world industrial prompt. In these settings, PE2 achieves strong performance and outperforms prior automatic prompt engineering baselines. Further, we show that PE2 makes meaningful and targeted prompt edits, amends erroneous or incomplete prompts, and presents non-trivial counterfactual reasoning abilities.

Ingénierie de Prompt pour un Ingénieur de Prompt

Prompt Engineering a Prompt Engineer

papers.abstract

Support