Engenharia de Prompt para um Engenheiro de Prompt

Resumo

A engenharia de prompts é uma tarefa desafiadora, porém crucial, para otimizar o desempenho de modelos de linguagem de grande escala (LLMs, na sigla em inglês). Ela requer raciocínio complexo para analisar os erros do modelo, formular hipóteses sobre o que está faltando ou sendo mal interpretado no prompt atual e comunicar a tarefa com clareza. Embora trabalhos recentes indiquem que LLMs podem ser meta-promptados para realizar engenharia de prompts automática, seu potencial pode não estar totalmente explorado devido à falta de orientação suficiente para eliciar capacidades de raciocínio complexo nos LLMs no meta-prompt. Neste trabalho, investigamos o problema de "engenharia de prompts para um engenheiro de prompts" — a construção de um meta-prompt que orienta os LLMs de forma mais eficaz para realizar engenharia de prompts automática. Introduzimos e analisamos componentes-chave, como um modelo de raciocínio passo a passo e especificação de contexto, que levam a um desempenho aprimorado. Além disso, inspirados por conceitos comuns de otimização, como tamanho do lote, tamanho do passo e momento, introduzimos suas contrapartes verbalizadas no meta-prompt e investigamos seus efeitos. Nosso método final, denominado PE2, encontra um prompt que supera "vamos pensar passo a passo" em 6,3% no conjunto de dados MultiArith e 3,1% no conjunto de dados GSM8K. Para demonstrar sua versatilidade, aplicamos o PE2 ao benchmark de Indução de Instruções, a um conjunto de tarefas contrafactuais e a um prompt industrial longo e do mundo real. Nessas configurações, o PE2 alcança um desempenho robusto e supera as linhas de base anteriores de engenharia de prompts automática. Além disso, mostramos que o PE2 faz edições de prompts significativas e direcionadas, corrige prompts errôneos ou incompletos e apresenta habilidades não triviais de raciocínio contrafactual.

English

Prompt engineering is a challenging yet crucial task for optimizing the performance of large language models (LLMs). It requires complex reasoning to examine the model's errors, hypothesize what is missing or misleading in the current prompt, and communicate the task with clarity. While recent works indicate that LLMs can be meta-prompted to perform automatic prompt engineering, their potentials may not be fully untapped due to the lack of sufficient guidance to elicit complex reasoning capabilities in LLMs in the meta-prompt. In this work, we investigate the problem of "prompt engineering a prompt engineer" -- constructing a meta-prompt that more effectively guides LLMs to perform automatic prompt engineering. We introduce and analyze key components, such as a step-by-step reasoning template and context specification, which lead to improved performance. In addition, inspired by common optimization concepts such as batch size, step size and momentum, we introduce their verbalized counterparts to the meta-prompt and investigate their effects. Our final method, named PE2, finds a prompt that outperforms "let's think step by step" by 6.3% on the MultiArith dataset and 3.1% on the GSM8K dataset. To demonstrate its versatility, we apply PE2 to the Instruction Induction benchmark, a suite of counterfactual tasks, and a lengthy, real-world industrial prompt. In these settings, PE2 achieves strong performance and outperforms prior automatic prompt engineering baselines. Further, we show that PE2 makes meaningful and targeted prompt edits, amends erroneous or incomplete prompts, and presents non-trivial counterfactual reasoning abilities.

Engenharia de Prompt para um Engenheiro de Prompt

Prompt Engineering a Prompt Engineer

Resumo

Support