小規模で汎用的なプロンプト予測モデルが大規模推論モデルの効率的な強化学習後学習を誘導可能
Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models
February 2, 2026
著者: Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji
cs.AI
要旨
強化学習は大規模言語モデルの推論能力を強化するが、ロールアウト集約的な最適化により高い計算コストを伴うことが多い。オンラインでのプロンプト選択は、情報量の多いプロンプトを優先的に扱うことで学習効率を向上させる有望な解決策である。しかし、既存手法は高コストな厳密評価に依存するか、プロンプト間での汎化性に欠けるプロンプト特化の予測モデルを構築するにとどまっている。本研究では、共有された最適化履歴で学習した軽量生成モデルを用いてプロンプト難易度に関するベイズ推論を行う一般化可能な予測的プロンプト選択法(GPS)を提案する。中程度の難易度を優先し、履歴に基づく多様性をバッチ取得原理に組み込むことで、情報量豊富なプロンプトバッチを選択する。この小型予測モデルはテスト時にも汎化し、効率的な計算資源配分を実現する。様々な推論ベンチマークにおける実験により、GPSが優れたベースライン手法を上回る学習効率、最終性能、テスト時効率の大幅な改善をもたらすことが示された。
English
Reinforcement learning enhances the reasoning capabilities of large language models but often involves high computational costs due to rollout-intensive optimization. Online prompt selection presents a plausible solution by prioritizing informative prompts to improve training efficiency. However, current methods either depend on costly, exact evaluations or construct prompt-specific predictive models lacking generalization across prompts. This study introduces Generalizable Predictive Prompt Selection (GPS), which performs Bayesian inference towards prompt difficulty using a lightweight generative model trained on the shared optimization history. Intermediate-difficulty prioritization and history-anchored diversity are incorporated into the batch acquisition principle to select informative prompt batches. The small predictive model also generalizes at test-time for efficient computational allocation. Experiments across varied reasoning benchmarks indicate GPS's substantial improvements in training efficiency, final performance, and test-time efficiency over superior baseline methods.