RLoop：一个具有迭代策略初始化的强化学习自我改进框架

Abstract

Sebbene il Reinforcement Learning for Verifiable Rewards (RLVR) sia potente per l'addestramento di grandi modelli di ragionamento, le sue dinamiche di training nascondono una sfida critica: l'overfitting da RL, in cui i modelli ottengono ricompense in addestramento ma perdono capacità di generalizzazione. La nostra analisi rivela che questo fenomeno è guidato da una sovraspecializzazione della policy e da una dimenticanza catastrofica delle soluzioni diversificate generate durante il training. L'ottimizzazione standard scarta questa preziosa diversità di policy intermedia. Per affrontare questo problema, introduciamo RLoop, un framework di auto-miglioramento basato sull'inizializzazione iterativa della policy. RLoop trasforma il processo di training standard in un circolo virtuoso: prima utilizza il RL per esplorare lo spazio delle soluzioni a partire da una policy data, poi filtra le traiettorie di successo per creare un dataset esperto. Questo dataset viene utilizzato tramite il Rejection-sampling Fine-Tuning (RFT) per affinare la policy iniziale, creando un punto di partenza superiore per l'iterazione successiva. Questo ciclo di esplorazione e sfruttamento tramite re-inizializzazione iterativa converte efficacemente le variazioni transitorie della policy in guadagni robusti di performance. I nostri esperimenti mostrano che RLoop mitiga la dimenticanza e migliora sostanzialmente la generalizzazione, aumentando l'accuratezza media del 9% e la metrica pass@32 di oltre il 15% rispetto al RL standard.

English

While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for training large reasoning models, its training dynamics harbor a critical challenge: RL overfitting, where models gain training rewards but lose generalization. Our analysis reveals this is driven by policy over-specialization and catastrophic forgetting of diverse solutions generated during training. Standard optimization discards this valuable inter-step policy diversity. To address this, we introduce RLoop, a self-improving framework built on iterative policy initialization. RLoop transforms the standard training process into a virtuous cycle: it first uses RL to explore the solution space from a given policy, then filters the successful trajectories to create an expert dataset. This dataset is used via Rejection-sampling Fine-Tuning (RFT) to refine the initial policy, creating a superior starting point for the next iteration. This loop of exploration and exploitation via iterative re-initialization effectively converts transient policy variations into robust performance gains. Our experiments show RLoop mitigates forgetting and substantially improves generalization, boosting average accuracy by 9% and pass@32 by over 15% compared to vanilla RL.

RLoop：一个具有迭代策略初始化的强化学习自我改进框架

RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

Abstract

Support