Предварительная инженерия промптов для тонкой настройки с подкреплением
Prior Prompt Engineering for Reinforcement Fine-Tuning
May 20, 2025
Авторы: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul
cs.AI
Аннотация
В данной работе исследуется предварительное проектирование промптов (prior prompt engineering, pPE) в контексте тонкой настройки с подкреплением (reinforcement fine-tuning, RFT), где языковые модели (language models, LMs) стимулируются к демонстрации поведения, максимизирующего производительность, через сигналы вознаграждения. В то время как существующие исследования RFT в основном сосредоточены на алгоритмах, формировании вознаграждений и курировании данных, проектирование предварительного промпта — инструкций, добавляемых к запросам во время обучения для вызова поведения, такого как пошаговое рассуждение, — остается недостаточно изученным. Мы исследуем, могут ли различные подходы pPE направлять языковые модели на усвоение различных типов поведения после RFT. Вдохновленные проектированием промптов на этапе вывода (inference-time prompt engineering, iPE), мы переводим пять репрезентативных стратегий iPE — рассуждение, планирование, рассуждение на основе кода, вспоминание знаний и использование нулевых примеров — в соответствующие подходы pPE. Мы экспериментируем с моделью Qwen2.5-7B, применяя каждый из подходов pPE, а затем оцениваем производительность на внутридоменных и внедоменных тестах (например, AIME2024, HumanEval+ и GPQA-Diamond). Наши результаты показывают, что все модели, обученные с использованием pPE, превосходят свои аналоги, использующие iPE, причем подход pPE с нулевыми примерами достигает наибольшего среднего прироста производительности и наибольшего улучшения на тестах AIME2024 и GPQA-Diamond, превосходя широко используемый подход рассуждения. Кроме того, адаптируя фреймворк классификации поведения, мы демонстрируем, что различные стратегии pPE прививают моделям различные стили поведения. Эти результаты позиционируют pPE как мощный, но недостаточно изученный аспект RFT.
English
This paper investigates prior prompt engineering (pPE) in the context of
reinforcement fine-tuning (RFT), where language models (LMs) are incentivized
to exhibit behaviors that maximize performance through reward signals. While
existing RFT research has primarily focused on algorithms, reward shaping, and
data curation, the design of the prior prompt--the instructions prepended to
queries during training to elicit behaviors such as step-by-step
reasoning--remains underexplored. We investigate whether different pPE
approaches can guide LMs to internalize distinct behaviors after RFT. Inspired
by inference-time prompt engineering (iPE), we translate five representative
iPE strategies--reasoning, planning, code-based reasoning, knowledge recall,
and null-example utilization--into corresponding pPE approaches. We experiment
with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on
in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and
GPQA-Diamond). Our results show that all pPE-trained models surpass their
iPE-prompted counterparts, with the null-example pPE approach achieving the
largest average performance gain and the highest improvement on AIME2024 and
GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by
adapting a behavior-classification framework, we demonstrate that different pPE
strategies instill distinct behavioral styles in the resulting models. These
findings position pPE as a powerful yet understudied axis for RFT.Summary
AI-Generated Summary