Pequenos Modelos Preditivos de Prompt Generalizáveis Podem Orientar o Pós-Treinamento Eficiente por RL de Grandes Modelos de Raciocínio

Resumo

O aprendizado por reforço aprimora as capacidades de raciocínio de modelos de linguagem grandes, mas frequentemente envolve custos computacionais elevados devido à otimização intensiva em rollouts. A seleção online de prompts apresenta uma solução plausível ao priorizar prompts informativos para melhorar a eficiência do treinamento. Contudo, os métodos atuais dependem de avaliações exatas e custosas ou constroem modelos preditivos específicos para prompts, carecendo de generalização entre diferentes prompts. Este estudo introduz a Seleção Preditiva Generalizável de Prompts (GPS), que realiza inferência bayesiana sobre a dificuldade do prompt usando um modelo generativo leve treinado no histórico de otimização compartilhado. A priorização de dificuldade intermediária e a diversidade ancorada no histórico são incorporadas ao princípio de aquisição em lote para selecionar lotes de prompts informativos. O pequeno modelo preditivo também generaliza durante o teste para alocação computacional eficiente. Experimentos em diversos benchmarks de raciocínio indicam melhorias substanciais da GPS em eficiência de treinamento, desempenho final e eficiência durante o teste em comparação com métodos baselines superiores.

English

Reinforcement learning enhances the reasoning capabilities of large language models but often involves high computational costs due to rollout-intensive optimization. Online prompt selection presents a plausible solution by prioritizing informative prompts to improve training efficiency. However, current methods either depend on costly, exact evaluations or construct prompt-specific predictive models lacking generalization across prompts. This study introduces Generalizable Predictive Prompt Selection (GPS), which performs Bayesian inference towards prompt difficulty using a lightweight generative model trained on the shared optimization history. Intermediate-difficulty prioritization and history-anchored diversity are incorporated into the batch acquisition principle to select informative prompt batches. The small predictive model also generalizes at test-time for efficient computational allocation. Experiments across varied reasoning benchmarks indicate GPS's substantial improvements in training efficiency, final performance, and test-time efficiency over superior baseline methods.

Pequenos Modelos Preditivos de Prompt Generalizáveis Podem Orientar o Pós-Treinamento Eficiente por RL de Grandes Modelos de Raciocínio

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

Resumo

Support