RLoop: Самосовершенствующаяся система для обучения с подкреплением с итерационной инициализацией политики
RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization
November 6, 2025
Авторы: Zeng Zhiyuan, Jiashuo Liu, Zhangyue Yin, Ge Zhang, Wenhao Huang, Xipeng Qiu
cs.AI
Аннотация
Хотя обучение с подкреплением для верифицируемых вознаграждений (RLVR) является мощным инструментом для тренировки больших моделей рассуждений, его динамика обучения скрывает серьезную проблему: RL-переобучение, при котором модели достигают высоких вознаграждений на тренировочных данных, но теряют способность к обобщению. Наш анализ показывает, что это обусловлено сверхспециализацией политики и катастрофическим забыванием разнообразных решений, генерируемых в процессе обучения. Стандартная оптимизация отбрасывает эту ценную междоменную разнородность политик. Для решения данной проблемы мы представляем RLoop — самосовершенствующуюся структуру, основанную на итерационной инициализации политики. RLoop преобразует стандартный процесс обучения в добродетельный цикл: сначала с помощью RL исследуется пространство решений из заданной политики, затем успешные траектории фильтруются для создания экспертного набора данных. Этот набор данных используется посредством тонкой настройки с отклонением (RFT) для улучшения исходной политики, создавая превосходную стартовую точку для следующей итерации. Этот цикл исследования и эксплуатации через итерационную реинициализацию эффективно преобразует временные вариации политики в устойчивое повышение производительности. Наши эксперименты показывают, что RLoop смягчает забывание и существенно улучшает обобщение, повышая среднюю точность на 9% и pass@32 более чем на 15% по сравнению с базовым RL.
English
While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for
training large reasoning models, its training dynamics harbor a critical
challenge: RL overfitting, where models gain training rewards but lose
generalization. Our analysis reveals this is driven by policy
over-specialization and catastrophic forgetting of diverse solutions generated
during training. Standard optimization discards this valuable inter-step policy
diversity. To address this, we introduce RLoop, a self-improving framework
built on iterative policy initialization. RLoop transforms the standard
training process into a virtuous cycle: it first uses RL to explore the
solution space from a given policy, then filters the successful trajectories to
create an expert dataset. This dataset is used via Rejection-sampling
Fine-Tuning (RFT) to refine the initial policy, creating a superior starting
point for the next iteration. This loop of exploration and exploitation via
iterative re-initialization effectively converts transient policy variations
into robust performance gains. Our experiments show RLoop mitigates forgetting
and substantially improves generalization, boosting average accuracy by 9% and
pass@32 by over 15% compared to vanilla RL.