RLoop: Een zelfverbeterend raamwerk voor reinforcement learning met iteratief beleidsinitialisatie
RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization
November 6, 2025
Auteurs: Zeng Zhiyuan, Jiashuo Liu, Zhangyue Yin, Ge Zhang, Wenhao Huang, Xipeng Qiu
cs.AI
Samenvatting
Hoewel Reinforcement Learning for Verifiable Rewards (RLVR) een krachtige methode is voor het trainen van grote redeneermodellen, schuilt er in de trainingsdynamiek een kritieke uitdaging: RL-overfitting, waarbij modellen trainingsbeloningen verwerven maar hun generalisatievermogen verliezen. Onze analyse toont aan dat dit wordt veroorzaakt door over-specialisatie van het beleid en catastrofale vergetelheid van de diverse oplossingen die tijdens de training worden gegenereerd. Standaard optimalisatie verwerpt deze waardevolle diversiteit in beleid tussen stappen. Om dit aan te pakken, introduceren we RLoop, een zelfverbeterend raamwerk gebaseerd op iteratieve beleidsinitialisatie. RLoop transformeert het standaard trainingsproces in een vicieuze cirkel ten goede: het gebruikt eerst RL om de oplossingsruimte te verkennen vanuit een gegeven beleid, filtert vervolgens de succesvolle trajecten om een expertdataset te creëren. Deze dataset wordt via Rejection-sampling Fine-Tuning (RFT) gebruikt om het initiële beleid te verfijnen, waardoor een superieur startpunt voor de volgende iteratie ontstaat. Deze lus van exploratie en exploitatie via iteratieve herinitialisatie zet tijdelijke beleidsvariaties effectief om in robuuste prestatieverbeteringen. Onze experimenten tonen aan dat RLoop vergetelheid vermindert en de generalisatie aanzienlijk verbetert, met een gemiddelde nauwkeurigheidsverbetering van 9% en een pass@32-stijging van meer dan 15% vergeleken met standaard RL.
English
While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for
training large reasoning models, its training dynamics harbor a critical
challenge: RL overfitting, where models gain training rewards but lose
generalization. Our analysis reveals this is driven by policy
over-specialization and catastrophic forgetting of diverse solutions generated
during training. Standard optimization discards this valuable inter-step policy
diversity. To address this, we introduce RLoop, a self-improving framework
built on iterative policy initialization. RLoop transforms the standard
training process into a virtuous cycle: it first uses RL to explore the
solution space from a given policy, then filters the successful trajectories to
create an expert dataset. This dataset is used via Rejection-sampling
Fine-Tuning (RFT) to refine the initial policy, creating a superior starting
point for the next iteration. This loop of exploration and exploitation via
iterative re-initialization effectively converts transient policy variations
into robust performance gains. Our experiments show RLoop mitigates forgetting
and substantially improves generalization, boosting average accuracy by 9% and
pass@32 by over 15% compared to vanilla RL.