RLoop: 반복적 정책 초기화를 통한 강화 학습 자가 향상 프레임워크
RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization
November 6, 2025
저자: Zeng Zhiyuan, Jiashuo Liu, Zhangyue Yin, Ge Zhang, Wenhao Huang, Xipeng Qiu
cs.AI
초록
검증 가능한 보상 강화학습(RLVR)은 대규모 추론 모델 훈련에 강력하지만, 그 훈련 역학에는 중요한 과제가 내재되어 있습니다: 바로 RL 과적합으로, 모델이 훈련 보상은 획득하지만 일반화 능력을 상실하는 현상입니다. 우리의 분석에 따르면 이는 정책의 과도한 전문화와 훈련 과정에서 생성된 다양한 해결책에 대한 파국적 망각에 기인합니다. 표준 최적화 방법은 이러한 소중한 단계 간 정책 다양성을 버리게 됩니다. 이를 해결하기 위해 우리는 반복적 정책 초기화에 기반한 자기 개선 프레임워크인 RLoop를 제안합니다. RLoop는 표준 훈련 과정을 선순환 구조로 전환합니다: 먼저 주어진 정책에서 출발해 RL을 통해 해결책 공간을 탐색하고, 성공적인 궤적을 필터링하여 전문가 데이터셋을 생성합니다. 이 데이터셋은 기각 샘플링 미세 조정(RFT)을 통해 초기 정책을 개선하여 다음 반복을 위한 우수한 출발점을 마련합니다. 이러한 반복적 재초기화를 통한 탐험과 활용의 루프는 일시적인 정책 변이를 견고한 성능 향상으로 효과적으로 전환합니다. 우리의 실험 결과 RLoop는 망각 현상을 완화하고 일반화 능력을 크게 향상시켜, 일반 RL 대비 평균 정확도 9%, pass@32 기준 15% 이상의 성능 향상을 달성했습니다.
English
While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for
training large reasoning models, its training dynamics harbor a critical
challenge: RL overfitting, where models gain training rewards but lose
generalization. Our analysis reveals this is driven by policy
over-specialization and catastrophic forgetting of diverse solutions generated
during training. Standard optimization discards this valuable inter-step policy
diversity. To address this, we introduce RLoop, a self-improving framework
built on iterative policy initialization. RLoop transforms the standard
training process into a virtuous cycle: it first uses RL to explore the
solution space from a given policy, then filters the successful trajectories to
create an expert dataset. This dataset is used via Rejection-sampling
Fine-Tuning (RFT) to refine the initial policy, creating a superior starting
point for the next iteration. This loop of exploration and exploitation via
iterative re-initialization effectively converts transient policy variations
into robust performance gains. Our experiments show RLoop mitigates forgetting
and substantially improves generalization, boosting average accuracy by 9% and
pass@32 by over 15% compared to vanilla RL.