RLEP: 大規模言語モデル推論のための経験再生を活用した強化学習
RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning
July 10, 2025
著者: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI
要旨
大規模言語モデルのための強化学習(RL)はエネルギー集約的な取り組みであり、訓練が不安定になる可能性があり、ポリシーが事前学習された重みから徐々に逸脱する可能性があります。本論文では、RLEP(Reinforcement Learning with Experience rePlay)を提案します。これは、検証済みの軌跡を最初に収集し、その後の訓練中にそれらを再生する2段階のフレームワークです。各更新ステップで、新しく生成されたロールアウトとこれらの再生された成功例を組み合わせたミニバッチに対してポリシーを最適化します。高品質な例を再生することで、RLEPはモデルを無駄な探索から遠ざけ、有望な推論パスに学習を集中させ、より速い収束とより強力な最終性能を実現します。Qwen2.5-Math-7Bベースモデルにおいて、RLEPは大幅に少ない更新回数でベースラインのピーク精度に到達し、最終的にはそれを上回り、AIME-2024では38.2%から39.9%、AIME-2025では19.8%から22.3%、AMC-2023では77.0%から82.2%に精度を向上させました。再現性とさらなる研究を促進するため、コード、データセット、チェックポイントをhttps://github.com/Kwai-Klear/RLEPで公開しています。
English
Reinforcement learning (RL) for large language models is an energy-intensive
endeavor: training can be unstable, and the policy may gradually drift away
from its pretrained weights. We present RLEP\, -- \,Reinforcement
Learning with Experience rePlay\, -- \,a two-phase framework that first
collects verified trajectories and then replays them during subsequent
training. At every update step, the policy is optimized on mini-batches that
blend newly generated rollouts with these replayed successes. By replaying
high-quality examples, RLEP steers the model away from fruitless exploration,
focuses learning on promising reasoning paths, and delivers both faster
convergence and stronger final performance. On the Qwen2.5-Math-7B base model,
RLEP reaches baseline peak accuracy with substantially fewer updates and
ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%,
on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our
code, datasets, and checkpoints are publicly available at
https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further
research.