Kleine generalisierbare Prompt-Vorhersagemodelle können effizientes Reinforcement Learning nach dem Training großer Reasoning-Modelle steuern.

Zusammenfassung

Reinforcement Learning verbessert die Reasoning-Fähigkeiten großer Sprachmodelle, ist jedoch aufgrund des aufwendigen Rollout-basierten Optimierungsprozesses oft mit hohen Rechenkosten verbunden. Die Online-Prompt-Auswahl bietet eine vielversprechende Lösung, indem sie informative Prompts priorisiert, um die Trainingseffizienz zu steigern. Allerdings basieren bestehende Methoden entweder auf kostspieligen exakten Evaluationen oder erstellen promptspezifische Vorhersagemodelle, die nicht generalisierbar sind. Diese Studie stellt Generalizable Predictive Prompt Selection (GPS) vor, das mithilfe eines leichtgewichtigen generativen Modells – trainiert auf der gemeinsamen Optimierungshistorie – einen Bayes’schen Rückschluss auf die Prompt-Schwierigkeit vornimmt. Eine Priorisierung mittelschwerer Prompts und eine an der Historie orientierte Diversität werden in das Batch-Akquisitionsprinzip integriert, um informative Prompt-Batches auszuwählen. Das kleine Vorhersagemodell generalisiert zudem zur Testzeit, um Rechenressourcen effizient zuzuteilen. Experimente über verschiedene Reasoning-Benchmarks hinweg zeigen, dass GPS im Vergleich zu überlegenen Baseline-Methoden erhebliche Verbesserungen in Bezug auf Trainingseffizienz, finale Performanz und Testzeit-Effizienz erzielt.

English

Reinforcement learning enhances the reasoning capabilities of large language models but often involves high computational costs due to rollout-intensive optimization. Online prompt selection presents a plausible solution by prioritizing informative prompts to improve training efficiency. However, current methods either depend on costly, exact evaluations or construct prompt-specific predictive models lacking generalization across prompts. This study introduces Generalizable Predictive Prompt Selection (GPS), which performs Bayesian inference towards prompt difficulty using a lightweight generative model trained on the shared optimization history. Intermediate-difficulty prioritization and history-anchored diversity are incorporated into the batch acquisition principle to select informative prompt batches. The small predictive model also generalizes at test-time for efficient computational allocation. Experiments across varied reasoning benchmarks indicate GPS's substantial improvements in training efficiency, final performance, and test-time efficiency over superior baseline methods.

Kleine generalisierbare Prompt-Vorhersagemodelle können effizientes Reinforcement Learning nach dem Training großer Reasoning-Modelle steuern.

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

Zusammenfassung

Support