Ingénierie des prompts préalable pour le réglage fin par renforcement

papers.abstract

Cet article explore l'ingénierie des prompts préalables (pPE) dans le contexte du réglage fin par renforcement (RFT), où les modèles de langage (LMs) sont incités à adopter des comportements maximisant les performances grâce à des signaux de récompense. Alors que les recherches existantes sur le RFT se sont principalement concentrées sur les algorithmes, le façonnage des récompenses et la curation des données, la conception du prompt préalable—les instructions ajoutées aux requêtes pendant l'entraînement pour susciter des comportements tels que le raisonnement étape par étape—reste peu explorée. Nous examinons si différentes approches de pPE peuvent guider les LMs à internaliser des comportements distincts après le RFT. Inspirés par l'ingénierie des prompts au moment de l'inférence (iPE), nous traduisons cinq stratégies représentatives d'iPE—raisonnement, planification, raisonnement basé sur le code, rappel de connaissances et utilisation d'exemples nuls—en approches de pPE correspondantes. Nous expérimentons avec Qwen2.5-7B en utilisant chacune des approches de pPE, puis évaluons les performances sur des benchmarks intra-domaines et extra-domaines (par exemple, AIME2024, HumanEval+ et GPQA-Diamond). Nos résultats montrent que tous les modèles entraînés avec pPE surpassent leurs homologues utilisant iPE, avec l'approche pPE basée sur les exemples nuls obtenant le gain de performance moyen le plus important et la plus forte amélioration sur AIME2024 et GPQA-Diamond, surpassant l'approche de raisonnement couramment utilisée. De plus, en adaptant un cadre de classification des comportements, nous démontrons que différentes stratégies de pPE instillent des styles comportementaux distincts dans les modèles résultants. Ces résultats positionnent la pPE comme un axe puissant mais sous-étudié pour le RFT.

English

This paper investigates prior prompt engineering (pPE) in the context of reinforcement fine-tuning (RFT), where language models (LMs) are incentivized to exhibit behaviors that maximize performance through reward signals. While existing RFT research has primarily focused on algorithms, reward shaping, and data curation, the design of the prior prompt--the instructions prepended to queries during training to elicit behaviors such as step-by-step reasoning--remains underexplored. We investigate whether different pPE approaches can guide LMs to internalize distinct behaviors after RFT. Inspired by inference-time prompt engineering (iPE), we translate five representative iPE strategies--reasoning, planning, code-based reasoning, knowledge recall, and null-example utilization--into corresponding pPE approaches. We experiment with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and GPQA-Diamond). Our results show that all pPE-trained models surpass their iPE-prompted counterparts, with the null-example pPE approach achieving the largest average performance gain and the highest improvement on AIME2024 and GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by adapting a behavior-classification framework, we demonstrate that different pPE strategies instill distinct behavioral styles in the resulting models. These findings position pPE as a powerful yet understudied axis for RFT.

Ingénierie des prompts préalable pour le réglage fin par renforcement

Prior Prompt Engineering for Reinforcement Fine-Tuning

papers.abstract

Support