ExpRL: Aprendizado por Reforço Exploratório para o Treinamento Intermediário de LLMs

Resumo

O aprendizado por reforço (RL) com recompensas esparsas tornou-se uma ferramenta padrão para melhorar o raciocínio de LLMs, mas seu sucesso depende criticamente da cobertura presente no modelo base. Na prática, os modelos são frequentemente preparados para RL por meio de treinamento intermediário em trajetórias de raciocínio selecionadas que ensinam habilidades primitivas úteis, como decomposição, verificação ou autocorreção. Embora eficaz, essa estratégia exige especificar manualmente o que o modelo deve aprender, e permanece incerto se essa cobertura primitiva é suficiente para problemas muito mais difíceis, que exigem combinar essas habilidades em estratégias de solução mais amplas. Estudamos uma abordagem mais automatizada: treinamento intermediário baseado em RL usando grandes corpora de dados de perguntas e respostas escritas por humanos. Em vez de tratar as soluções de referência como alvos a serem imitados, nosso método, ExpRL, as utiliza como andaimes de recompensa: as referências são ocultadas da política e usadas apenas para construir rubricas de avaliação específicas do problema para julgar trajetórias de raciocínio on-policy. A política amostra a partir do prompt do problema original, enquanto um avaliador LLM compara a trajetória de raciocínio amostrada com a solução de referência e atribui recompensas densas em nível de resultado ou de processo. Isso permite que o ExpRL reforce progresso parcial, reduções intermediárias úteis e comportamentos de raciocínio produtivos que recompensas esparsas de resposta final frequentemente falham em valorizar. Em tarefas desafiadoras de raciocínio matemático, o ExpRL produz uma preparação para RL mais forte do que SFT, GRPO com recompensas esparsas e autodestilação, e fornece uma melhor inicialização para RL subsequente com recompensas esparsas. Experimentos adicionais de domínios mistos sugerem ainda que o ExpRL pode se estender além do cenário original exclusivamente matemático.

English

Sparse reward reinforcement learning (RL) has become a standard tool for improving LLM reasoning, but its success depends critically on the coverage present in the base model. In practice, models are often primed for RL through mid-training on curated reasoning traces that teach useful primitive skills such as decomposition, verification, or self-correction. Although effective, this strategy requires manually specifying what the model should learn, and it remains unclear whether such primitive coverage is enough for much harder problems, which require combining these skills into broader solution strategies. We study a more automated approach: RL-based mid-training using large corpora of human-written question-answer data. Rather than treating reference solutions as targets to imitate, our method, ExpRL, uses them as reward scaffolds: references are hidden from the policy and used only to construct problem-specific grading rubrics for judging on-policy reasoning traces. The policy samples from the original problem prompt, while an LLM judge compares the sampled reasoning trace against the reference solution and assigns outcome-level or process-level dense rewards. This lets ExpRL reinforce partial progress, useful intermediate reductions, and productive reasoning behaviors that sparse final-answer rewards often fail to upweight. On challenging math reasoning tasks, ExpRL yields stronger RL priming than SFT, sparse-reward GRPO, and self-distillation, and provides a better initialization for subsequent sparse-reward RL. Additional mixed-domain experiments further suggest that ExpRL can extend beyond the original math-only setting.