RLoop: Uma Estrutura de Autoaprimoramento para Aprendizagem por Reforço com Inicialização Iterativa de Políticas
RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization
November 6, 2025
Autores: Zeng Zhiyuan, Jiashuo Liu, Zhangyue Yin, Ge Zhang, Wenhao Huang, Xipeng Qiu
cs.AI
Resumo
Embora o Aprendizado por Reforço para Recompensas Verificáveis (RLVR) seja uma ferramenta poderosa para treinar grandes modelos de raciocínio, sua dinâmica de treinamento abriga um desafio crítico: o *overfitting* de RL, em que os modelos maximizam as recompensas de treino mas perdem generalização. Nossa análise revela que este fenómeno é impulsionado pela superespecialização da política e pelo esquecimento catastrófico das diversas soluções geradas durante o treinamento. A otimização padrão descarta esta valiosa diversidade de políticas entre etapas. Para resolver isto, introduzimos o RLoop, um quadro de autoaprimoramento baseado na inicialização iterativa de políticas. O RLoop transforma o processo de treinamento padrão num ciclo virtuoso: primeiro usa RL para explorar o espaço de soluções a partir de uma política dada, depois filtra as trajetórias bem-sucedidas para criar um conjunto de dados especializado. Este conjunto de dados é utilizado via *Rejection-sampling Fine-Tuning* (RFT) para refinar a política inicial, criando um ponto de partida superior para a próxima iteração. Este ciclo de exploração e exploração via reinicialização iterativa converte eficazmente as variações transitórias da política em ganhos robustos de desempenho. Nossos experimentos mostram que o RLoop mitiga o esquecimento e melhora substancialmente a generalização, aumentando a precisão média em 9% e a métrica *pass@32* em mais de 15% em comparação com o RL padrão.
English
While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for
training large reasoning models, its training dynamics harbor a critical
challenge: RL overfitting, where models gain training rewards but lose
generalization. Our analysis reveals this is driven by policy
over-specialization and catastrophic forgetting of diverse solutions generated
during training. Standard optimization discards this valuable inter-step policy
diversity. To address this, we introduce RLoop, a self-improving framework
built on iterative policy initialization. RLoop transforms the standard
training process into a virtuous cycle: it first uses RL to explore the
solution space from a given policy, then filters the successful trajectories to
create an expert dataset. This dataset is used via Rejection-sampling
Fine-Tuning (RFT) to refine the initial policy, creating a superior starting
point for the next iteration. This loop of exploration and exploitation via
iterative re-initialization effectively converts transient policy variations
into robust performance gains. Our experiments show RLoop mitigates forgetting
and substantially improves generalization, boosting average accuracy by 9% and
pass@32 by over 15% compared to vanilla RL.