ChatPaper.aiChatPaper

RLoop:一个具有迭代策略初始化的强化学习自我改进框架

RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

November 6, 2025
Autori: Zeng Zhiyuan, Jiashuo Liu, Zhangyue Yin, Ge Zhang, Wenhao Huang, Xipeng Qiu
cs.AI

Abstract

Sebbene il Reinforcement Learning for Verifiable Rewards (RLVR) sia potente per l'addestramento di grandi modelli di ragionamento, le sue dinamiche di training nascondono una sfida critica: l'overfitting da RL, in cui i modelli ottengono ricompense in addestramento ma perdono capacità di generalizzazione. La nostra analisi rivela che questo fenomeno è guidato da una sovraspecializzazione della policy e da una dimenticanza catastrofica delle soluzioni diversificate generate durante il training. L'ottimizzazione standard scarta questa preziosa diversità di policy intermedia. Per affrontare questo problema, introduciamo RLoop, un framework di auto-miglioramento basato sull'inizializzazione iterativa della policy. RLoop trasforma il processo di training standard in un circolo virtuoso: prima utilizza il RL per esplorare lo spazio delle soluzioni a partire da una policy data, poi filtra le traiettorie di successo per creare un dataset esperto. Questo dataset viene utilizzato tramite il Rejection-sampling Fine-Tuning (RFT) per affinare la policy iniziale, creando un punto di partenza superiore per l'iterazione successiva. Questo ciclo di esplorazione e sfruttamento tramite re-inizializzazione iterativa converte efficacemente le variazioni transitorie della policy in guadagni robusti di performance. I nostri esperimenti mostrano che RLoop mitiga la dimenticanza e migliora sostanzialmente la generalizzazione, aumentando l'accuratezza media del 9% e la metrica pass@32 di oltre il 15% rispetto al RL standard.
English
While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for training large reasoning models, its training dynamics harbor a critical challenge: RL overfitting, where models gain training rewards but lose generalization. Our analysis reveals this is driven by policy over-specialization and catastrophic forgetting of diverse solutions generated during training. Standard optimization discards this valuable inter-step policy diversity. To address this, we introduce RLoop, a self-improving framework built on iterative policy initialization. RLoop transforms the standard training process into a virtuous cycle: it first uses RL to explore the solution space from a given policy, then filters the successful trajectories to create an expert dataset. This dataset is used via Rejection-sampling Fine-Tuning (RFT) to refine the initial policy, creating a superior starting point for the next iteration. This loop of exploration and exploitation via iterative re-initialization effectively converts transient policy variations into robust performance gains. Our experiments show RLoop mitigates forgetting and substantially improves generalization, boosting average accuracy by 9% and pass@32 by over 15% compared to vanilla RL.
PDF72December 2, 2025