Ingeniería de Prompts Previos para el Ajuste Fino por Refuerzo
Prior Prompt Engineering for Reinforcement Fine-Tuning
May 20, 2025
Autores: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul
cs.AI
Resumen
Este artículo investiga la ingeniería de prompts previos (pPE) en el contexto del ajuste fino por refuerzo (RFT), donde los modelos de lenguaje (LMs) son incentivados a exhibir comportamientos que maximizan el rendimiento mediante señales de recompensa. Si bien la investigación existente en RFT se ha centrado principalmente en algoritmos, modelado de recompensas y curación de datos, el diseño del prompt previo—las instrucciones antepuestas a las consultas durante el entrenamiento para elicitar comportamientos como el razonamiento paso a paso—sigue siendo poco explorado. Investigamos si diferentes enfoques de pPE pueden guiar a los LMs a internalizar comportamientos distintos después del RFT. Inspirados por la ingeniería de prompts en tiempo de inferencia (iPE), traducimos cinco estrategias representativas de iPE—razonamiento, planificación, razonamiento basado en código, recuperación de conocimiento y utilización de ejemplos nulos—en enfoques de pPE correspondientes. Experimentamos con Qwen2.5-7B utilizando cada uno de los enfoques de pPE, luego evaluamos el rendimiento en benchmarks dentro y fuera del dominio (por ejemplo, AIME2024, HumanEval+ y GPQA-Diamond). Nuestros resultados muestran que todos los modelos entrenados con pPE superan a sus contrapartes con prompts de iPE, con el enfoque de pPE de ejemplos nulos logrando la mayor ganancia promedio de rendimiento y la mayor mejora en AIME2024 y GPQA-Diamond, superando al enfoque de razonamiento comúnmente utilizado. Además, al adaptar un marco de clasificación de comportamientos, demostramos que diferentes estrategias de pPE inculcan estilos de comportamiento distintos en los modelos resultantes. Estos hallazgos posicionan a la pPE como un eje poderoso pero poco estudiado para el RFT.
English
This paper investigates prior prompt engineering (pPE) in the context of
reinforcement fine-tuning (RFT), where language models (LMs) are incentivized
to exhibit behaviors that maximize performance through reward signals. While
existing RFT research has primarily focused on algorithms, reward shaping, and
data curation, the design of the prior prompt--the instructions prepended to
queries during training to elicit behaviors such as step-by-step
reasoning--remains underexplored. We investigate whether different pPE
approaches can guide LMs to internalize distinct behaviors after RFT. Inspired
by inference-time prompt engineering (iPE), we translate five representative
iPE strategies--reasoning, planning, code-based reasoning, knowledge recall,
and null-example utilization--into corresponding pPE approaches. We experiment
with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on
in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and
GPQA-Diamond). Our results show that all pPE-trained models surpass their
iPE-prompted counterparts, with the null-example pPE approach achieving the
largest average performance gain and the highest improvement on AIME2024 and
GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by
adapting a behavior-classification framework, we demonstrate that different pPE
strategies instill distinct behavioral styles in the resulting models. These
findings position pPE as a powerful yet understudied axis for RFT.Summary
AI-Generated Summary