RLoop : Un cadre d'auto-amélioration pour l'apprentissage par renforcement avec initialisation itérative des politiques

papers.abstract

Bien que l'apprentissage par renforcement pour les récompenses vérifiables (RLVR) soit puissant pour entraîner de grands modèles de raisonnement, sa dynamique d'entraînement cache un défi critique : le surapprentissage en RL, où les modèles obtiennent des récompenses à l'entraînement mais perdent en généralisation. Notre analyse révèle que ce phénomène est causé par une sur-spécialisation de la politique et un oubli catastrophique des solutions diverses générées pendant l'entraînement. Les méthodes d'optimisation standard ignorent cette précieuse diversité des politiques entre les étapes. Pour résoudre ce problème, nous présentons RLoop, un cadre auto-améliorant basé sur une initialisation itérative des politiques. RLoop transforme le processus d'entraînement standard en un cercle vertueux : il utilise d'abord le RL pour explorer l'espace des solutions à partir d'une politique donnée, puis filtre les trajectoires réussies pour créer un jeu de données expert. Ce jeu de données est utilisé via un réglage fin par échantillonnage de rejet (RFT) pour affiner la politique initiale, créant ainsi un point de départ supérieur pour l'itération suivante. Cette boucle d'exploration et d'exploitation via une ré-initialisation itérative convertit efficacement les variations transitoires des politiques en gains de performance robustes. Nos expériences montrent que RLoop atténue l'oubli et améliore considérablement la généralisation, augmentant la précision moyenne de 9 % et le pass@32 de plus de 15 % par rapport au RL standard.

English

While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for training large reasoning models, its training dynamics harbor a critical challenge: RL overfitting, where models gain training rewards but lose generalization. Our analysis reveals this is driven by policy over-specialization and catastrophic forgetting of diverse solutions generated during training. Standard optimization discards this valuable inter-step policy diversity. To address this, we introduce RLoop, a self-improving framework built on iterative policy initialization. RLoop transforms the standard training process into a virtuous cycle: it first uses RL to explore the solution space from a given policy, then filters the successful trajectories to create an expert dataset. This dataset is used via Rejection-sampling Fine-Tuning (RFT) to refine the initial policy, creating a superior starting point for the next iteration. This loop of exploration and exploitation via iterative re-initialization effectively converts transient policy variations into robust performance gains. Our experiments show RLoop mitigates forgetting and substantially improves generalization, boosting average accuracy by 9% and pass@32 by over 15% compared to vanilla RL.

RLoop : Un cadre d'auto-amélioration pour l'apprentissage par renforcement avec initialisation itérative des politiques

RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

papers.abstract

Support