ChatPaper.aiChatPaper

RLEP: Verstärkungslernen mit Erfahrungswiedergabe für das Schlussfolgern von großen Sprachmodellen

RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

July 10, 2025
papers.authors: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI

papers.abstract

Reinforcement Learning (RL) für große Sprachmodelle ist ein energieintensives Unterfangen: Das Training kann instabil sein, und die Policy kann sich allmählich von ihren vortrainierten Gewichten entfernen. Wir stellen RLEP vor – Reinforcement Learning mit Experience Replay – ein zweiphasiges Framework, das zunächst verifizierte Trajektorien sammelt und diese dann im weiteren Training wiedergibt. Bei jedem Aktualisierungsschritt wird die Policy auf Mini-Batches optimiert, die neu generierte Rollouts mit diesen wiedergegebenen Erfolgen kombinieren. Durch das Wiedergeben hochwertiger Beispiele lenkt RLEP das Modell von erfolgloser Exploration ab, konzentriert das Lernen auf vielversprechende Lösungswege und erreicht sowohl eine schnellere Konvergenz als auch eine stärkere Endleistung. Beim Qwen2.5-Math-7B-Basismodell erreicht RLEP die Spitzengenauigkeit des Baselines mit deutlich weniger Aktualisierungen und übertrifft sie schließlich, indem die Genauigkeit auf AIME-2024 von 38,2 % auf 39,9 %, auf AIME-2025 von 19,8 % auf 22,3 % und auf AMC-2023 von 77,0 % auf 82,2 % verbessert wird. Unser Code, Datensätze und Checkpoints sind öffentlich unter https://github.com/Kwai-Klear/RLEP verfügbar, um Reproduzierbarkeit und weitere Forschung zu erleichtern.
English
Reinforcement learning (RL) for large language models is an energy-intensive endeavor: training can be unstable, and the policy may gradually drift away from its pretrained weights. We present RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,a two-phase framework that first collects verified trajectories and then replays them during subsequent training. At every update step, the policy is optimized on mini-batches that blend newly generated rollouts with these replayed successes. By replaying high-quality examples, RLEP steers the model away from fruitless exploration, focuses learning on promising reasoning paths, and delivers both faster convergence and stronger final performance. On the Qwen2.5-Math-7B base model, RLEP reaches baseline peak accuracy with substantially fewer updates and ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%, on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our code, datasets, and checkpoints are publicly available at https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further research.
PDF31July 17, 2025