ChatPaper.aiChatPaper

RLoop: Un Marco de Mejora Automática para el Aprendizaje por Refuerzo con Inicialización Iterativa de Políticas

RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

November 6, 2025
Autores: Zeng Zhiyuan, Jiashuo Liu, Zhangyue Yin, Ge Zhang, Wenhao Huang, Xipeng Qiu
cs.AI

Resumen

Si bien el Aprendizaje por Refuerzo para Recompensas Verificables (RLVR) es potente para entrenar modelos de razonamiento a gran escala, su dinámica de entrenamiento alberga un desafío crítico: el sobreajuste del RL, donde los modelos ganan recompensas de entrenamiento pero pierden generalización. Nuestro análisis revela que esto está impulsado por una sobre-especialización de la política y el olvido catastrófico de las diversas soluciones generadas durante el entrenamiento. La optimización estándar descarta esta valiosa diversidad de políticas entre pasos. Para abordar esto, presentamos RLoop, un marco de auto-mejora basado en la inicialización iterativa de políticas. RLoop transforma el proceso de entrenamiento estándar en un ciclo virtuoso: primero utiliza RL para explorar el espacio de soluciones desde una política dada, luego filtra las trayectorias exitosas para crear un conjunto de datos experto. Este conjunto de datos se utiliza mediante Fine-Tuning por Muestreo de Rechazo (RFT) para refinar la política inicial, creando un punto de partida superior para la siguiente iteración. Este bucle de exploración y explotación mediante reinicialización iterativa convierte efectivamente las variaciones transitorias de la política en ganancias robustas de rendimiento. Nuestros experimentos muestran que RLoop mitiga el olvido y mejora sustancialmente la generalización, aumentando la precisión promedio en un 9% y pass@32 en más de un 15% en comparación con el RL estándar.
English
While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for training large reasoning models, its training dynamics harbor a critical challenge: RL overfitting, where models gain training rewards but lose generalization. Our analysis reveals this is driven by policy over-specialization and catastrophic forgetting of diverse solutions generated during training. Standard optimization discards this valuable inter-step policy diversity. To address this, we introduce RLoop, a self-improving framework built on iterative policy initialization. RLoop transforms the standard training process into a virtuous cycle: it first uses RL to explore the solution space from a given policy, then filters the successful trajectories to create an expert dataset. This dataset is used via Rejection-sampling Fine-Tuning (RFT) to refine the initial policy, creating a superior starting point for the next iteration. This loop of exploration and exploitation via iterative re-initialization effectively converts transient policy variations into robust performance gains. Our experiments show RLoop mitigates forgetting and substantially improves generalization, boosting average accuracy by 9% and pass@32 by over 15% compared to vanilla RL.
PDF82February 7, 2026