RLoop: Uma Estrutura de Autoaprimoramento para Aprendizagem por Reforço com Inicialização Iterativa de Políticas

Resumo

Embora o Aprendizado por Reforço para Recompensas Verificáveis (RLVR) seja uma ferramenta poderosa para treinar grandes modelos de raciocínio, sua dinâmica de treinamento abriga um desafio crítico: o *overfitting* de RL, em que os modelos maximizam as recompensas de treino mas perdem generalização. Nossa análise revela que este fenómeno é impulsionado pela superespecialização da política e pelo esquecimento catastrófico das diversas soluções geradas durante o treinamento. A otimização padrão descarta esta valiosa diversidade de políticas entre etapas. Para resolver isto, introduzimos o RLoop, um quadro de autoaprimoramento baseado na inicialização iterativa de políticas. O RLoop transforma o processo de treinamento padrão num ciclo virtuoso: primeiro usa RL para explorar o espaço de soluções a partir de uma política dada, depois filtra as trajetórias bem-sucedidas para criar um conjunto de dados especializado. Este conjunto de dados é utilizado via *Rejection-sampling Fine-Tuning* (RFT) para refinar a política inicial, criando um ponto de partida superior para a próxima iteração. Este ciclo de exploração e exploração via reinicialização iterativa converte eficazmente as variações transitórias da política em ganhos robustos de desempenho. Nossos experimentos mostram que o RLoop mitiga o esquecimento e melhora substancialmente a generalização, aumentando a precisão média em 9% e a métrica *pass@32* em mais de 15% em comparação com o RL padrão.

English

While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for training large reasoning models, its training dynamics harbor a critical challenge: RL overfitting, where models gain training rewards but lose generalization. Our analysis reveals this is driven by policy over-specialization and catastrophic forgetting of diverse solutions generated during training. Standard optimization discards this valuable inter-step policy diversity. To address this, we introduce RLoop, a self-improving framework built on iterative policy initialization. RLoop transforms the standard training process into a virtuous cycle: it first uses RL to explore the solution space from a given policy, then filters the successful trajectories to create an expert dataset. This dataset is used via Rejection-sampling Fine-Tuning (RFT) to refine the initial policy, creating a superior starting point for the next iteration. This loop of exploration and exploitation via iterative re-initialization effectively converts transient policy variations into robust performance gains. Our experiments show RLoop mitigates forgetting and substantially improves generalization, boosting average accuracy by 9% and pass@32 by over 15% compared to vanilla RL.

RLoop: Uma Estrutura de Autoaprimoramento para Aprendizagem por Reforço com Inicialização Iterativa de Políticas

RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

Resumo

Support