RLoop: Самосовершенствующаяся система для обучения с подкреплением с итерационной инициализацией политики

Аннотация

Хотя обучение с подкреплением для верифицируемых вознаграждений (RLVR) является мощным инструментом для тренировки больших моделей рассуждений, его динамика обучения скрывает серьезную проблему: RL-переобучение, при котором модели достигают высоких вознаграждений на тренировочных данных, но теряют способность к обобщению. Наш анализ показывает, что это обусловлено сверхспециализацией политики и катастрофическим забыванием разнообразных решений, генерируемых в процессе обучения. Стандартная оптимизация отбрасывает эту ценную междоменную разнородность политик. Для решения данной проблемы мы представляем RLoop — самосовершенствующуюся структуру, основанную на итерационной инициализации политики. RLoop преобразует стандартный процесс обучения в добродетельный цикл: сначала с помощью RL исследуется пространство решений из заданной политики, затем успешные траектории фильтруются для создания экспертного набора данных. Этот набор данных используется посредством тонкой настройки с отклонением (RFT) для улучшения исходной политики, создавая превосходную стартовую точку для следующей итерации. Этот цикл исследования и эксплуатации через итерационную реинициализацию эффективно преобразует временные вариации политики в устойчивое повышение производительности. Наши эксперименты показывают, что RLoop смягчает забывание и существенно улучшает обобщение, повышая среднюю точность на 9% и pass@32 более чем на 15% по сравнению с базовым RL.

English

While Reinforcement Learning for Verifiable Rewards (RLVR) is powerful for training large reasoning models, its training dynamics harbor a critical challenge: RL overfitting, where models gain training rewards but lose generalization. Our analysis reveals this is driven by policy over-specialization and catastrophic forgetting of diverse solutions generated during training. Standard optimization discards this valuable inter-step policy diversity. To address this, we introduce RLoop, a self-improving framework built on iterative policy initialization. RLoop transforms the standard training process into a virtuous cycle: it first uses RL to explore the solution space from a given policy, then filters the successful trajectories to create an expert dataset. This dataset is used via Rejection-sampling Fine-Tuning (RFT) to refine the initial policy, creating a superior starting point for the next iteration. This loop of exploration and exploitation via iterative re-initialization effectively converts transient policy variations into robust performance gains. Our experiments show RLoop mitigates forgetting and substantially improves generalization, boosting average accuracy by 9% and pass@32 by over 15% compared to vanilla RL.

RLoop: Самосовершенствующаяся система для обучения с подкреплением с итерационной инициализацией политики

RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

Аннотация

Support