Kleine generaliseerbare prompt-voorspellingsmodellen kunnen efficiënte RL-natraining van grote redeneermodellen sturen.

Samenvatting

Reinforcement learning verbetert de redeneervermogens van grote taalmodel(len) maar brengt vaak hoge computationele kosten met zich mee vanwege rollout-intensieve optimalisatie. Online promptselectie biedt een plausibele oplossing door informatieve prompts te prioriteren om de trainings efficiëntie te verbeteren. Huidige methodes zijn echter afhankelijk van kostbare, exacte evaluaties of construeren promptspecifieke voorspellende modellen die generalisatie over prompts missen. Deze studie introduceert Generaliseerbare Voorspellende Promptselectie (GPS), dat Bayesiaanse inferentie uitvoert naar promptmoeilijkheidsgraad met behulp van een lichtgewicht generatief model getraind op de gedeelde optimalisatiegeschiedenis. Intermediate-difficulty prioritering en history-anchored diversiteit zijn geïncorporeerd in het batch-acquisitieprincipe om informatieve promptbatches te selecteren. Het kleine voorspellende model generaliseert ook tijdens testtijd voor efficiënte computationele allocatie. Experimenten over diverse redeneerbenchmarks tonen aan dat GPS substantiële verbeteringen biedt in trainings efficiëntie, uiteindelijke prestaties en testtijd efficiëntie vergeleken met superieure baseline-methoden.

English

Reinforcement learning enhances the reasoning capabilities of large language models but often involves high computational costs due to rollout-intensive optimization. Online prompt selection presents a plausible solution by prioritizing informative prompts to improve training efficiency. However, current methods either depend on costly, exact evaluations or construct prompt-specific predictive models lacking generalization across prompts. This study introduces Generalizable Predictive Prompt Selection (GPS), which performs Bayesian inference towards prompt difficulty using a lightweight generative model trained on the shared optimization history. Intermediate-difficulty prioritization and history-anchored diversity are incorporated into the batch acquisition principle to select informative prompt batches. The small predictive model also generalizes at test-time for efficient computational allocation. Experiments across varied reasoning benchmarks indicate GPS's substantial improvements in training efficiency, final performance, and test-time efficiency over superior baseline methods.

Kleine generaliseerbare prompt-voorspellingsmodellen kunnen efficiënte RL-natraining van grote redeneermodellen sturen.

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

Samenvatting

Support