RLoop: Ein sich selbst verbessernder Rahmen für Reinforcement Learning mit iterativer Politikinitialisierung

papers.abstract

Obwohl Reinforcement Learning for Verifiable Rewards (RLVR) ein leistungsfähiges Verfahren zum Training großer Reasoning-Modelle ist, birgt seine Trainingsdynamik eine kritische Herausforderung: RL-Overfitting, bei dem Modelle Trainingsbelohnungen maximieren, aber ihre Generalisierungsfähigkeit einbüßen. Unsere Analyse zeigt, dass dies durch eine Über-Spezialisierung der Policy und ein katastrophales Vergessen der während des Trainings generierten vielfältigen Lösungen verursacht wird. Standard-Optimierungsverfahren verwerfen diese wertvolle Policy-Vielfalt zwischen den Trainingsschritten. Um dieses Problem zu adressieren, führen wir RLoop ein, einen sich selbst verbessernden Rahmen, der auf iterativer Policy-Initialisierung basiert. RLoop verwandelt den Standard-Trainingsprozess in einen positiven Kreislauf: Zuerst nutzt es RL, um den Lösungsraum ausgehend von einer gegebenen Policy zu erkunden, filtert dann die erfolgreichen Trajektorien heraus, um einen Expertendatensatz zu erstellen. Dieser Datensatz wird mittels Rejection-sampling Fine-Tuning (RFT) genutzt, um die Ausgangs-Policy zu verfeinern und so einen überlegenen Startpunkt für die nächste Iteration zu schaffen. Diese Schleife aus Exploration und Exploitation durch iterative Re-Initialisierung wandelt effektiv flüchtige Policy-Variationen in robuste Leistungssteigerungen um. Unsere Experimente zeigen, dass RLoop das Vergessen mildert und die Generalisierung erheblich verbessert, indem es die durchschnittliche Genauigkeit um 9 % und pass@32 um über 15 % im Vergleich zu Standard-RL steigert.

English

While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for training large reasoning models, its training dynamics harbor a critical challenge: RL overfitting, where models gain training rewards but lose generalization. Our analysis reveals this is driven by policy over-specialization and catastrophic forgetting of diverse solutions generated during training. Standard optimization discards this valuable inter-step policy diversity. To address this, we introduce RLoop, a self-improving framework built on iterative policy initialization. RLoop transforms the standard training process into a virtuous cycle: it first uses RL to explore the solution space from a given policy, then filters the successful trajectories to create an expert dataset. This dataset is used via Rejection-sampling Fine-Tuning (RFT) to refine the initial policy, creating a superior starting point for the next iteration. This loop of exploration and exploitation via iterative re-initialization effectively converts transient policy variations into robust performance gains. Our experiments show RLoop mitigates forgetting and substantially improves generalization, boosting average accuracy by 9% and pass@32 by over 15% compared to vanilla RL.

RLoop: Ein sich selbst verbessernder Rahmen für Reinforcement Learning mit iterativer Politikinitialisierung

RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

papers.abstract

Support