Voorafgaande Prompt Engineering voor Reinforcement Fine-Tuning
Prior Prompt Engineering for Reinforcement Fine-Tuning
May 20, 2025
Auteurs: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul
cs.AI
Samenvatting
Dit artikel onderzoekt prior prompt engineering (pPE) in de context van reinforcement fine-tuning (RFT), waarbij taalmodelen (LMs) worden gestimuleerd om gedrag te vertonen dat de prestaties maximaliseert door middel van beloningssignalen. Hoewel bestaand RFT-onderzoek zich voornamelijk heeft gericht op algoritmen, beloningsvormgeving en datacuratie, blijft het ontwerp van de prior prompt—de instructies die tijdens de training aan queries worden toegevoegd om gedrag zoals stap-voor-stap redeneren te stimuleren—onderbelicht. Wij onderzoeken of verschillende pPE-benaderingen LMs kunnen begeleiden om specifieke gedragingen te internaliseren na RFT. Geïnspireerd door inference-time prompt engineering (iPE), vertalen we vijf representatieve iPE-strategieën—redeneren, plannen, code-gebaseerd redeneren, kennisrecall en null-voorbeeldgebruik—naar corresponderende pPE-benaderingen. We experimenteren met Qwen2.5-7B met elk van de pPE-benaderingen en evalueren vervolgens de prestaties op in-domein en out-of-domein benchmarks (bijv. AIME2024, HumanEval+ en GPQA-Diamond). Onze resultaten laten zien dat alle pPE-getrainde modellen hun iPE-geprompte tegenhangers overtreffen, waarbij de null-voorbeeld pPE-benadering de grootste gemiddelde prestatieverbetering behaalt en de hoogste verbetering op AIME2024 en GPQA-Diamond, wat de veelgebruikte redeneerbenadering overtreft. Bovendien tonen we, door een gedragsklassificatieraamwerk aan te passen, aan dat verschillende pPE-strategieën verschillende gedragsstijlen in de resulterende modellen inboezemen. Deze bevindingen positioneren pPE als een krachtige maar onderbelichte as voor RFT.
English
This paper investigates prior prompt engineering (pPE) in the context of
reinforcement fine-tuning (RFT), where language models (LMs) are incentivized
to exhibit behaviors that maximize performance through reward signals. While
existing RFT research has primarily focused on algorithms, reward shaping, and
data curation, the design of the prior prompt--the instructions prepended to
queries during training to elicit behaviors such as step-by-step
reasoning--remains underexplored. We investigate whether different pPE
approaches can guide LMs to internalize distinct behaviors after RFT. Inspired
by inference-time prompt engineering (iPE), we translate five representative
iPE strategies--reasoning, planning, code-based reasoning, knowledge recall,
and null-example utilization--into corresponding pPE approaches. We experiment
with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on
in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and
GPQA-Diamond). Our results show that all pPE-trained models surpass their
iPE-prompted counterparts, with the null-example pPE approach achieving the
largest average performance gain and the highest improvement on AIME2024 and
GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by
adapting a behavior-classification framework, we demonstrate that different pPE
strategies instill distinct behavioral styles in the resulting models. These
findings position pPE as a powerful yet understudied axis for RFT.