ChatPaper.aiChatPaper

RLEP: Обучение с подкреплением с воспроизведением опыта для рассуждений в больших языковых моделях

RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

July 10, 2025
Авторы: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI

Аннотация

Обучение с подкреплением (RL) для крупных языковых моделей является энергозатратным процессом: обучение может быть нестабильным, а политика может постепенно отклоняться от своих предварительно обученных весов. Мы представляем RLEP — Reinforcement Learning with Experience rePlay — двухэтапную структуру, которая сначала собирает проверенные траектории, а затем воспроизводит их в ходе последующего обучения. На каждом шаге обновления политика оптимизируется на мини-батчах, которые сочетают вновь сгенерированные развертки с этими воспроизведенными успехами. Воспроизводя высококачественные примеры, RLEP направляет модель в сторону от бесполезного исследования, сосредотачивает обучение на перспективных путях рассуждений и обеспечивает как более быструю сходимость, так и более высокую итоговую производительность. На базовой модели Qwen2.5-Math-7B RLEP достигает пиковой точности базового уровня с существенно меньшим количеством обновлений и в конечном итоге превосходит его, улучшая точность на AIME-2024 с 38,2% до 39,9%, на AIME-2025 с 19,8% до 22,3% и на AMC-2023 с 77,0% до 82,2%. Наш код, наборы данных и контрольные точки доступны публично по адресу https://github.com/Kwai-Klear/RLEP для обеспечения воспроизводимости и дальнейших исследований.
English
Reinforcement learning (RL) for large language models is an energy-intensive endeavor: training can be unstable, and the policy may gradually drift away from its pretrained weights. We present RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,a two-phase framework that first collects verified trajectories and then replays them during subsequent training. At every update step, the policy is optimized on mini-batches that blend newly generated rollouts with these replayed successes. By replaying high-quality examples, RLEP steers the model away from fruitless exploration, focuses learning on promising reasoning paths, and delivers both faster convergence and stronger final performance. On the Qwen2.5-Math-7B base model, RLEP reaches baseline peak accuracy with substantially fewer updates and ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%, on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our code, datasets, and checkpoints are publicly available at https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further research.
PDF31July 17, 2025