RLoop:一个具有迭代策略初始化的强化学习自我改进框架
RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization
November 6, 2025
Autori: Zeng Zhiyuan, Jiashuo Liu, Zhangyue Yin, Ge Zhang, Wenhao Huang, Xipeng Qiu
cs.AI
Abstract
Sebbene il Reinforcement Learning for Verifiable Rewards (RLVR) sia potente per l'addestramento di grandi modelli di ragionamento, le sue dinamiche di training nascondono una sfida critica: l'overfitting da RL, in cui i modelli ottengono ricompense in addestramento ma perdono capacità di generalizzazione. La nostra analisi rivela che questo fenomeno è guidato da una sovraspecializzazione della policy e da una dimenticanza catastrofica delle soluzioni diversificate generate durante il training. L'ottimizzazione standard scarta questa preziosa diversità di policy intermedia. Per affrontare questo problema, introduciamo RLoop, un framework di auto-miglioramento basato sull'inizializzazione iterativa della policy. RLoop trasforma il processo di training standard in un circolo virtuoso: prima utilizza il RL per esplorare lo spazio delle soluzioni a partire da una policy data, poi filtra le traiettorie di successo per creare un dataset esperto. Questo dataset viene utilizzato tramite il Rejection-sampling Fine-Tuning (RFT) per affinare la policy iniziale, creando un punto di partenza superiore per l'iterazione successiva. Questo ciclo di esplorazione e sfruttamento tramite re-inizializzazione iterativa converte efficacemente le variazioni transitorie della policy in guadagni robusti di performance. I nostri esperimenti mostrano che RLoop mitiga la dimenticanza e migliora sostanzialmente la generalizzazione, aumentando l'accuratezza media del 9% e la metrica pass@32 di oltre il 15% rispetto al RL standard.
English
While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for
training large reasoning models, its training dynamics harbor a critical
challenge: RL overfitting, where models gain training rewards but lose
generalization. Our analysis reveals this is driven by policy
over-specialization and catastrophic forgetting of diverse solutions generated
during training. Standard optimization discards this valuable inter-step policy
diversity. To address this, we introduce RLoop, a self-improving framework
built on iterative policy initialization. RLoop transforms the standard
training process into a virtuous cycle: it first uses RL to explore the
solution space from a given policy, then filters the successful trajectories to
create an expert dataset. This dataset is used via Rejection-sampling
Fine-Tuning (RFT) to refine the initial policy, creating a superior starting
point for the next iteration. This loop of exploration and exploitation via
iterative re-initialization effectively converts transient policy variations
into robust performance gains. Our experiments show RLoop mitigates forgetting
and substantially improves generalization, boosting average accuracy by 9% and
pass@32 by over 15% compared to vanilla RL.