Vorherige Prompt-Engineering für Reinforcement Fine-Tuning
Prior Prompt Engineering for Reinforcement Fine-Tuning
May 20, 2025
Autoren: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul
cs.AI
Zusammenfassung
Diese Arbeit untersucht das Prior Prompt Engineering (pPE) im Kontext des Reinforcement Fine-Tunings (RFT), bei dem Sprachmodelle (LMs) durch Belohnungssignale dazu angeregt werden, Verhaltensweisen zu zeigen, die die Leistung maximieren. Während sich die bestehende RFT-Forschung hauptsächlich auf Algorithmen, Reward Shaping und Datenkuratierung konzentriert hat, bleibt die Gestaltung des Prior Prompts – der Anweisungen, die während des Trainings an Anfragen angehängt werden, um Verhaltensweisen wie schrittweises Denken zu fördern – weitgehend unerforscht. Wir untersuchen, ob unterschiedliche pPE-Ansätze LMs dazu führen können, nach dem RFT unterschiedliche Verhaltensweisen zu internalisieren. Inspiriert vom Inference-Time Prompt Engineering (iPE) übersetzen wir fünf repräsentative iPE-Strategien – schrittweises Denken, Planung, codebasiertes Denken, Wissensabruf und die Nutzung von Null-Beispielen – in entsprechende pPE-Ansätze. Wir experimentieren mit Qwen2.5-7B unter Verwendung jedes dieser pPE-Ansätze und bewerten dann die Leistung auf in-domain und out-of-domain Benchmarks (z. B. AIME2024, HumanEval+ und GPQA-Diamond). Unsere Ergebnisse zeigen, dass alle pPE-trainierten Modelle ihre iPE-unterstützten Gegenstücke übertreffen, wobei der Null-Beispiel-pPE-Ansatz den größten durchschnittlichen Leistungszuwachs und die höchste Verbesserung bei AIME2024 und GPQA-Diamond erzielt und den häufig verwendeten schrittweisen Denkansatz übertrifft. Darüber hinaus zeigen wir durch die Anpassung eines Verhaltensklassifizierungsrahmens, dass unterschiedliche pPE-Strategien den resultierenden Modellen unterschiedliche Verhaltensstile vermitteln. Diese Erkenntnisse positionieren pPE als eine leistungsstarke, jedoch noch wenig erforschte Dimension für RFT.
English
This paper investigates prior prompt engineering (pPE) in the context of
reinforcement fine-tuning (RFT), where language models (LMs) are incentivized
to exhibit behaviors that maximize performance through reward signals. While
existing RFT research has primarily focused on algorithms, reward shaping, and
data curation, the design of the prior prompt--the instructions prepended to
queries during training to elicit behaviors such as step-by-step
reasoning--remains underexplored. We investigate whether different pPE
approaches can guide LMs to internalize distinct behaviors after RFT. Inspired
by inference-time prompt engineering (iPE), we translate five representative
iPE strategies--reasoning, planning, code-based reasoning, knowledge recall,
and null-example utilization--into corresponding pPE approaches. We experiment
with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on
in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and
GPQA-Diamond). Our results show that all pPE-trained models surpass their
iPE-prompted counterparts, with the null-example pPE approach achieving the
largest average performance gain and the highest improvement on AIME2024 and
GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by
adapting a behavior-classification framework, we demonstrate that different pPE
strategies instill distinct behavioral styles in the resulting models. These
findings position pPE as a powerful yet understudied axis for RFT.Summary
AI-Generated Summary