事前プロンプトエンジニアリングによる強化学習の微調整
Prior Prompt Engineering for Reinforcement Fine-Tuning
May 20, 2025
著者: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul
cs.AI
要旨
本論文は、強化学習によるファインチューニング(RFT)の文脈における事前プロンプトエンジニアリング(pPE)を調査する。RFTでは、言語モデル(LM)が報酬信号を通じてパフォーマンスを最大化する行動を示すよう促される。既存のRFT研究は主にアルゴリズム、報酬形成、データキュレーションに焦点を当ててきたが、トレーニング中にクエリの前に付加される事前プロンプトの設計(例:段階的な推論を引き出すための指示)は十分に検討されていない。本研究では、異なるpPEアプローチがRFT後にLMに異なる行動を内在化させることができるかどうかを調査する。推論時のプロンプトエンジニアリング(iPE)に着想を得て、代表的な5つのiPE戦略(推論、計画、コードベースの推論、知識想起、null-exampleの活用)を対応するpPEアプローチに変換する。Qwen2.5-7Bを用いて各pPEアプローチを実験し、ドメイン内およびドメイン外のベンチマーク(例:AIME2024、HumanEval+、GPQA-Diamond)で性能を評価する。結果は、すべてのpPEトレーニング済みモデルがiPEプロンプト付きのモデルを上回り、null-example pPEアプローチが平均的な性能向上とAIME2024およびGPQA-Diamondでの最大の改善を示し、一般的に使用される推論アプローチを凌駕することを示す。さらに、行動分類フレームワークを適用することで、異なるpPE戦略が結果として得られるモデルに異なる行動スタイルを植え付けることを実証する。これらの発見は、pPEをRFTの強力でありながら未開拓の軸として位置づける。
English
This paper investigates prior prompt engineering (pPE) in the context of
reinforcement fine-tuning (RFT), where language models (LMs) are incentivized
to exhibit behaviors that maximize performance through reward signals. While
existing RFT research has primarily focused on algorithms, reward shaping, and
data curation, the design of the prior prompt--the instructions prepended to
queries during training to elicit behaviors such as step-by-step
reasoning--remains underexplored. We investigate whether different pPE
approaches can guide LMs to internalize distinct behaviors after RFT. Inspired
by inference-time prompt engineering (iPE), we translate five representative
iPE strategies--reasoning, planning, code-based reasoning, knowledge recall,
and null-example utilization--into corresponding pPE approaches. We experiment
with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on
in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and
GPQA-Diamond). Our results show that all pPE-trained models surpass their
iPE-prompted counterparts, with the null-example pPE approach achieving the
largest average performance gain and the highest improvement on AIME2024 and
GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by
adapting a behavior-classification framework, we demonstrate that different pPE
strategies instill distinct behavioral styles in the resulting models. These
findings position pPE as a powerful yet understudied axis for RFT.Summary
AI-Generated Summary