De petits modèles prédictifs de prompts généralisables peuvent guider l'apprentissage par renforcement efficace en post-formation des grands modèles de raisonnement
Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models
February 2, 2026
Auteurs: Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji
cs.AI
Résumé
L'apprentissage par renforcement améliore les capacités de raisonnement des grands modèles de langage, mais implique souvent des coûts computationnels élevés en raison d'une optimisation intensive en déploiements. La sélection en ligne d'invites présente une solution plausible en hiérarchisant les invites informatives pour améliorer l'efficacité de l'entraînement. Cependant, les méthodes actuelles dépendent soit d'évaluations exactes coûteuses, soit construisent des modèles prédictifs spécifiques aux invites, manquant de généralisation entre les invites. Cette étude introduit la Sélection Prédictive Généralisable d'Invites (GPS), qui effectue une inférence bayésienne sur la difficulté des invites en utilisant un modèle génératif léger entraîné sur l'historique partagé d'optimisation. Une priorisation des difficultés intermédiaires et une diversité ancrée dans l'historique sont intégrées au principe d'acquisition par lots pour sélectionner des lots d'invites informatifs. Le petit modèle prédictif généralise également au moment du test pour une allocation computationnelle efficace. Les expériences sur divers benchmarks de raisonnement indiquent que GPS apporte des améliorations substantielles en efficacité d'entraînement, performance finale et efficacité au moment du test par rapport à des méthodes de référence supérieures.
English
Reinforcement learning enhances the reasoning capabilities of large language models but often involves high computational costs due to rollout-intensive optimization. Online prompt selection presents a plausible solution by prioritizing informative prompts to improve training efficiency. However, current methods either depend on costly, exact evaluations or construct prompt-specific predictive models lacking generalization across prompts. This study introduces Generalizable Predictive Prompt Selection (GPS), which performs Bayesian inference towards prompt difficulty using a lightweight generative model trained on the shared optimization history. Intermediate-difficulty prioritization and history-anchored diversity are incorporated into the batch acquisition principle to select informative prompt batches. The small predictive model also generalizes at test-time for efficient computational allocation. Experiments across varied reasoning benchmarks indicate GPS's substantial improvements in training efficiency, final performance, and test-time efficiency over superior baseline methods.