Engenharia de Prompts Prévia para Ajuste Fino por Reforço
Prior Prompt Engineering for Reinforcement Fine-Tuning
May 20, 2025
Autores: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul
cs.AI
Resumo
Este artigo investiga a engenharia de prompts prévia (pPE) no contexto de ajuste fino por reforço (RFT), onde modelos de linguagem (LMs) são incentivados a exibir comportamentos que maximizam o desempenho por meio de sinais de recompensa. Embora as pesquisas existentes em RFT tenham se concentrado principalmente em algoritmos, modelagem de recompensas e curadoria de dados, o design do prompt prévio—as instruções adicionadas às consultas durante o treinamento para eliciar comportamentos como raciocínio passo a passo—permanece pouco explorado. Investigamos se diferentes abordagens de pPE podem guiar LMs a internalizar comportamentos distintos após o RFT. Inspirados pela engenharia de prompts em tempo de inferência (iPE), traduzimos cinco estratégias representativas de iPE—raciocínio, planejamento, raciocínio baseado em código, recuperação de conhecimento e utilização de exemplos nulos—em abordagens correspondentes de pPE. Realizamos experimentos com o Qwen2.5-7B utilizando cada uma das abordagens de pPE e avaliamos o desempenho em benchmarks dentro e fora do domínio (por exemplo, AIME2024, HumanEval+ e GPQA-Diamond). Nossos resultados mostram que todos os modelos treinados com pPE superam suas contrapartes com prompts de iPE, com a abordagem de pPE de exemplos nulos alcançando o maior ganho médio de desempenho e a maior melhoria no AIME2024 e GPQA-Diamond, superando a abordagem de raciocínio comumente usada. Além disso, ao adaptar uma estrutura de classificação de comportamentos, demonstramos que diferentes estratégias de pPE instilam estilos comportamentais distintos nos modelos resultantes. Essas descobertas posicionam a pPE como um eixo poderoso, porém pouco estudado, para o RFT.
English
This paper investigates prior prompt engineering (pPE) in the context of
reinforcement fine-tuning (RFT), where language models (LMs) are incentivized
to exhibit behaviors that maximize performance through reward signals. While
existing RFT research has primarily focused on algorithms, reward shaping, and
data curation, the design of the prior prompt--the instructions prepended to
queries during training to elicit behaviors such as step-by-step
reasoning--remains underexplored. We investigate whether different pPE
approaches can guide LMs to internalize distinct behaviors after RFT. Inspired
by inference-time prompt engineering (iPE), we translate five representative
iPE strategies--reasoning, planning, code-based reasoning, knowledge recall,
and null-example utilization--into corresponding pPE approaches. We experiment
with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on
in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and
GPQA-Diamond). Our results show that all pPE-trained models surpass their
iPE-prompted counterparts, with the null-example pPE approach achieving the
largest average performance gain and the highest improvement on AIME2024 and
GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by
adapting a behavior-classification framework, we demonstrate that different pPE
strategies instill distinct behavioral styles in the resulting models. These
findings position pPE as a powerful yet understudied axis for RFT.