Ingegnerizzazione Preventiva dei Prompt per l'Affinamento con Rinforzo
Prior Prompt Engineering for Reinforcement Fine-Tuning
May 20, 2025
Autori: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul
cs.AI
Abstract
Questo articolo indaga l'ingegnerizzazione preliminare dei prompt (pPE) nel contesto del fine-tuning con rinforzo (RFT), in cui i modelli linguistici (LMs) sono incentivati a esibire comportamenti che massimizzano le prestazioni attraverso segnali di ricompensa. Mentre la ricerca esistente sull'RFT si è concentrata principalmente su algoritmi, modellazione delle ricompense e curatela dei dati, la progettazione del prompt preliminare—le istruzioni preposte alle query durante l'addestramento per elicitare comportamenti come il ragionamento passo-passo—rimane poco esplorata. Indaghiamo se diversi approcci di pPE possano guidare i LMs a interiorizzare comportamenti distinti dopo l'RFT. Ispirati dall'ingegnerizzazione dei prompt al momento dell'inferenza (iPE), traduciamo cinque strategie rappresentative di iPE—ragionamento, pianificazione, ragionamento basato su codice, richiamo di conoscenze e utilizzo di esempi nulli—in corrispondenti approcci di pPE. Sperimentiamo con Qwen2.5-7B utilizzando ciascuno degli approcci di pPE, quindi valutiamo le prestazioni su benchmark in dominio e fuori dominio (ad esempio, AIME2024, HumanEval+ e GPQA-Diamond). I nostri risultati mostrano che tutti i modelli addestrati con pPE superano le loro controparti con prompt iPE, con l'approccio pPE basato su esempi nulli che ottiene il maggior guadagno medio di prestazioni e il miglioramento più alto su AIME2024 e GPQA-Diamond, superando il comunemente utilizzato approccio di ragionamento. Inoltre, adattando un framework di classificazione dei comportamenti, dimostriamo che diverse strategie di pPE instillano stili comportamentali distinti nei modelli risultanti. Questi risultati posizionano la pPE come un asse potente ma poco studiato per l'RFT.
English
This paper investigates prior prompt engineering (pPE) in the context of
reinforcement fine-tuning (RFT), where language models (LMs) are incentivized
to exhibit behaviors that maximize performance through reward signals. While
existing RFT research has primarily focused on algorithms, reward shaping, and
data curation, the design of the prior prompt--the instructions prepended to
queries during training to elicit behaviors such as step-by-step
reasoning--remains underexplored. We investigate whether different pPE
approaches can guide LMs to internalize distinct behaviors after RFT. Inspired
by inference-time prompt engineering (iPE), we translate five representative
iPE strategies--reasoning, planning, code-based reasoning, knowledge recall,
and null-example utilization--into corresponding pPE approaches. We experiment
with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on
in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and
GPQA-Diamond). Our results show that all pPE-trained models surpass their
iPE-prompted counterparts, with the null-example pPE approach achieving the
largest average performance gain and the highest improvement on AIME2024 and
GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by
adapting a behavior-classification framework, we demonstrate that different pPE
strategies instill distinct behavioral styles in the resulting models. These
findings position pPE as a powerful yet understudied axis for RFT.