Ingénierie des prompts préalable pour le réglage fin par renforcement
Prior Prompt Engineering for Reinforcement Fine-Tuning
May 20, 2025
Auteurs: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul
cs.AI
Résumé
Cet article explore l'ingénierie des prompts préalables (pPE) dans le contexte du réglage fin par renforcement (RFT), où les modèles de langage (LMs) sont incités à adopter des comportements maximisant les performances grâce à des signaux de récompense. Alors que les recherches existantes sur le RFT se sont principalement concentrées sur les algorithmes, le façonnage des récompenses et la curation des données, la conception du prompt préalable—les instructions ajoutées aux requêtes pendant l'entraînement pour susciter des comportements tels que le raisonnement étape par étape—reste peu explorée. Nous examinons si différentes approches de pPE peuvent guider les LMs à internaliser des comportements distincts après le RFT. Inspirés par l'ingénierie des prompts au moment de l'inférence (iPE), nous traduisons cinq stratégies représentatives d'iPE—raisonnement, planification, raisonnement basé sur le code, rappel de connaissances et utilisation d'exemples nuls—en approches de pPE correspondantes. Nous expérimentons avec Qwen2.5-7B en utilisant chacune des approches de pPE, puis évaluons les performances sur des benchmarks intra-domaines et extra-domaines (par exemple, AIME2024, HumanEval+ et GPQA-Diamond). Nos résultats montrent que tous les modèles entraînés avec pPE surpassent leurs homologues utilisant iPE, avec l'approche pPE basée sur les exemples nuls obtenant le gain de performance moyen le plus important et la plus forte amélioration sur AIME2024 et GPQA-Diamond, surpassant l'approche de raisonnement couramment utilisée. De plus, en adaptant un cadre de classification des comportements, nous démontrons que différentes stratégies de pPE instillent des styles comportementaux distincts dans les modèles résultants. Ces résultats positionnent la pPE comme un axe puissant mais sous-étudié pour le RFT.
English
This paper investigates prior prompt engineering (pPE) in the context of
reinforcement fine-tuning (RFT), where language models (LMs) are incentivized
to exhibit behaviors that maximize performance through reward signals. While
existing RFT research has primarily focused on algorithms, reward shaping, and
data curation, the design of the prior prompt--the instructions prepended to
queries during training to elicit behaviors such as step-by-step
reasoning--remains underexplored. We investigate whether different pPE
approaches can guide LMs to internalize distinct behaviors after RFT. Inspired
by inference-time prompt engineering (iPE), we translate five representative
iPE strategies--reasoning, planning, code-based reasoning, knowledge recall,
and null-example utilization--into corresponding pPE approaches. We experiment
with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on
in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and
GPQA-Diamond). Our results show that all pPE-trained models surpass their
iPE-prompted counterparts, with the null-example pPE approach achieving the
largest average performance gain and the highest improvement on AIME2024 and
GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by
adapting a behavior-classification framework, we demonstrate that different pPE
strategies instill distinct behavioral styles in the resulting models. These
findings position pPE as a powerful yet understudied axis for RFT.Summary
AI-Generated Summary