RLEP: Reinforcement Learning met Experience Replay voor LLM-redenering
RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning
July 10, 2025
Auteurs: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI
Samenvatting
Reinforcement learning (RL) voor grote taalmodelen is een energie-intensieve onderneming: de training kan instabiel zijn, en het beleid kan geleidelijk afdrijven van zijn vooraf getrainde gewichten. Wij presenteren RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,een tweefasenraamwerk dat eerst geverifieerde trajecten verzamelt en deze vervolgens tijdens de daaropvolgende training opnieuw afspeelt. Bij elke update wordt het beleid geoptimaliseerd op mini-batches die nieuw gegenereerde rollouts combineren met deze herspeelde successen. Door hoogwaardige voorbeelden opnieuw af te spelen, stuurt RLEP het model weg van vruchteloze exploratie, richt het leren op veelbelovende redeneerpaden, en levert het zowel snellere convergentie als sterkere eindprestaties op. Op het Qwen2.5-Math-7B basismodel bereikt RLEP de basislijnpiekprecisie met aanzienlijk minder updates en overtreft het deze uiteindelijk, waarbij de nauwkeurigheid op AIME-2024 verbetert van 38,2% naar 39,9%, op AIME-2025 van 19,8% naar 22,3%, en op AMC-2023 van 77,0% naar 82,2%. Onze code, datasets en checkpoints zijn publiekelijk beschikbaar op https://github.com/Kwai-Klear/RLEP om reproduceerbaarheid en verder onderzoek te vergemakkelijken.
English
Reinforcement learning (RL) for large language models is an energy-intensive
endeavor: training can be unstable, and the policy may gradually drift away
from its pretrained weights. We present RLEP\, -- \,Reinforcement
Learning with Experience rePlay\, -- \,a two-phase framework that first
collects verified trajectories and then replays them during subsequent
training. At every update step, the policy is optimized on mini-batches that
blend newly generated rollouts with these replayed successes. By replaying
high-quality examples, RLEP steers the model away from fruitless exploration,
focuses learning on promising reasoning paths, and delivers both faster
convergence and stronger final performance. On the Qwen2.5-Math-7B base model,
RLEP reaches baseline peak accuracy with substantially fewer updates and
ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%,
on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our
code, datasets, and checkpoints are publicly available at
https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further
research.