Los Pequeños Modelos Predictivos de Prompts Generalizables Pueden Dirigir el Aprendizaje por Refuerzo Eficiente Posterior al Entrenamiento de Grandes Modelos de Razonamiento

Resumen

El aprendizaje por refuerzo mejora las capacidades de razonamiento de los modelos de lenguaje grandes, pero a menudo implica altos costos computacionales debido a la optimización intensiva en simulaciones. La selección en línea de prompts presenta una solución plausible al priorizar prompts informativos para mejorar la eficiencia del entrenamiento. Sin embargo, los métodos actuales dependen de evaluaciones exactas costosas o construyen modelos predictivos específicos para cada prompt que carecen de generalización entre prompts. Este estudio presenta la Selección Predictiva de Prompts Generalizable (GPS), que realiza inferencia bayesiana sobre la dificultad del prompt utilizando un modelo generativo ligero entrenado en el historial de optimización compartido. La priorización de dificultad intermedia y la diversidad anclada en el historial se incorporan al principio de adquisición por lotes para seleccionar lotes de prompts informativos. El pequeño modelo predictivo también generaliza en tiempo de prueba para una asignación computacional eficiente. Los experimentos en diversos benchmarks de razonamiento indican que GPS logra mejoras sustanciales en la eficiencia del entrenamiento, el rendimiento final y la eficiencia en tiempo de prueba sobre métodos baseline superiores.

English

Reinforcement learning enhances the reasoning capabilities of large language models but often involves high computational costs due to rollout-intensive optimization. Online prompt selection presents a plausible solution by prioritizing informative prompts to improve training efficiency. However, current methods either depend on costly, exact evaluations or construct prompt-specific predictive models lacking generalization across prompts. This study introduces Generalizable Predictive Prompt Selection (GPS), which performs Bayesian inference towards prompt difficulty using a lightweight generative model trained on the shared optimization history. Intermediate-difficulty prioritization and history-anchored diversity are incorporated into the batch acquisition principle to select informative prompt batches. The small predictive model also generalizes at test-time for efficient computational allocation. Experiments across varied reasoning benchmarks indicate GPS's substantial improvements in training efficiency, final performance, and test-time efficiency over superior baseline methods.