RLoop: Een zelfverbeterend raamwerk voor reinforcement learning met iteratief beleidsinitialisatie

Samenvatting

Hoewel Reinforcement Learning for Verifiable Rewards (RLVR) een krachtige methode is voor het trainen van grote redeneermodellen, schuilt er in de trainingsdynamiek een kritieke uitdaging: RL-overfitting, waarbij modellen trainingsbeloningen verwerven maar hun generalisatievermogen verliezen. Onze analyse toont aan dat dit wordt veroorzaakt door over-specialisatie van het beleid en catastrofale vergetelheid van de diverse oplossingen die tijdens de training worden gegenereerd. Standaard optimalisatie verwerpt deze waardevolle diversiteit in beleid tussen stappen. Om dit aan te pakken, introduceren we RLoop, een zelfverbeterend raamwerk gebaseerd op iteratieve beleidsinitialisatie. RLoop transformeert het standaard trainingsproces in een vicieuze cirkel ten goede: het gebruikt eerst RL om de oplossingsruimte te verkennen vanuit een gegeven beleid, filtert vervolgens de succesvolle trajecten om een expertdataset te creëren. Deze dataset wordt via Rejection-sampling Fine-Tuning (RFT) gebruikt om het initiële beleid te verfijnen, waardoor een superieur startpunt voor de volgende iteratie ontstaat. Deze lus van exploratie en exploitatie via iteratieve herinitialisatie zet tijdelijke beleidsvariaties effectief om in robuuste prestatieverbeteringen. Onze experimenten tonen aan dat RLoop vergetelheid vermindert en de generalisatie aanzienlijk verbetert, met een gemiddelde nauwkeurigheidsverbetering van 9% en een pass@32-stijging van meer dan 15% vergeleken met standaard RL.

English

While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for training large reasoning models, its training dynamics harbor a critical challenge: RL overfitting, where models gain training rewards but lose generalization. Our analysis reveals this is driven by policy over-specialization and catastrophic forgetting of diverse solutions generated during training. Standard optimization discards this valuable inter-step policy diversity. To address this, we introduce RLoop, a self-improving framework built on iterative policy initialization. RLoop transforms the standard training process into a virtuous cycle: it first uses RL to explore the solution space from a given policy, then filters the successful trajectories to create an expert dataset. This dataset is used via Rejection-sampling Fine-Tuning (RFT) to refine the initial policy, creating a superior starting point for the next iteration. This loop of exploration and exploitation via iterative re-initialization effectively converts transient policy variations into robust performance gains. Our experiments show RLoop mitigates forgetting and substantially improves generalization, boosting average accuracy by 9% and pass@32 by over 15% compared to vanilla RL.

RLoop: Een zelfverbeterend raamwerk voor reinforcement learning met iteratief beleidsinitialisatie

RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

Samenvatting

Support