Piccoli Modelli Predittivi di Prompt Generalizzabili Possono Guidare l'Addestramento Efficiente RL Post-Training di Grandi Modelli di Ragionamento

Abstract

L'apprendimento per rinforzo potenzia le capacità di ragionamento dei grandi modelli linguistici, ma comporta spesso costi computazionali elevati a causa dell'ottimizzazione intensiva sui rollout. La selezione online dei prompt rappresenta una soluzione plausibile, poiché priorizza i prompt informativi per migliorare l'efficienza dell'addestramento. Tuttavia, i metodi attuali dipendono da valutazioni esatte e costose oppure costruiscono modelli predittivi specifici per prompt, che mancano di generalizzazione tra prompt diversi. Questo studio introduce la *Generalizable Predictive Prompt Selection* (GPS), che esegue un'inferenza bayesiana sulla difficoltà del prompt utilizzando un modello generativo leggero addestrato sulla cronologia condivisa delle ottimizzazioni. La prioritarizzazione della difficoltà intermedia e la diversità ancorata alla cronologia sono incorporate nel principio di acquisizione in batch per selezionare gruppi di prompt informativi. Il piccolo modello predittivo generalizza anche in fase di test per un'allocazione computazionale efficiente. Esperimenti su vari benchmark di ragionamento indicano che GPS apporta miglioramenti sostanziali nell'efficienza dell'addestramento, nelle prestazioni finali e nell'efficienza in fase di test rispetto a metodi baseline superiori.

English

Reinforcement learning enhances the reasoning capabilities of large language models but often involves high computational costs due to rollout-intensive optimization. Online prompt selection presents a plausible solution by prioritizing informative prompts to improve training efficiency. However, current methods either depend on costly, exact evaluations or construct prompt-specific predictive models lacking generalization across prompts. This study introduces Generalizable Predictive Prompt Selection (GPS), which performs Bayesian inference towards prompt difficulty using a lightweight generative model trained on the shared optimization history. Intermediate-difficulty prioritization and history-anchored diversity are incorporated into the batch acquisition principle to select informative prompt batches. The small predictive model also generalizes at test-time for efficient computational allocation. Experiments across varied reasoning benchmarks indicate GPS's substantial improvements in training efficiency, final performance, and test-time efficiency over superior baseline methods.

Piccoli Modelli Predittivi di Prompt Generalizzabili Possono Guidare l'Addestramento Efficiente RL Post-Training di Grandi Modelli di Ragionamento

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

Abstract

Support