ChatPaper.aiChatPaper

RLEP: Reinforcement Learning met Experience Replay voor LLM-redenering

RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

July 10, 2025
Auteurs: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI

Samenvatting

Reinforcement learning (RL) voor grote taalmodelen is een energie-intensieve onderneming: de training kan instabiel zijn, en het beleid kan geleidelijk afdrijven van zijn vooraf getrainde gewichten. Wij presenteren RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,een tweefasenraamwerk dat eerst geverifieerde trajecten verzamelt en deze vervolgens tijdens de daaropvolgende training opnieuw afspeelt. Bij elke update wordt het beleid geoptimaliseerd op mini-batches die nieuw gegenereerde rollouts combineren met deze herspeelde successen. Door hoogwaardige voorbeelden opnieuw af te spelen, stuurt RLEP het model weg van vruchteloze exploratie, richt het leren op veelbelovende redeneerpaden, en levert het zowel snellere convergentie als sterkere eindprestaties op. Op het Qwen2.5-Math-7B basismodel bereikt RLEP de basislijnpiekprecisie met aanzienlijk minder updates en overtreft het deze uiteindelijk, waarbij de nauwkeurigheid op AIME-2024 verbetert van 38,2% naar 39,9%, op AIME-2025 van 19,8% naar 22,3%, en op AMC-2023 van 77,0% naar 82,2%. Onze code, datasets en checkpoints zijn publiekelijk beschikbaar op https://github.com/Kwai-Klear/RLEP om reproduceerbaarheid en verder onderzoek te vergemakkelijken.
English
Reinforcement learning (RL) for large language models is an energy-intensive endeavor: training can be unstable, and the policy may gradually drift away from its pretrained weights. We present RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,a two-phase framework that first collects verified trajectories and then replays them during subsequent training. At every update step, the policy is optimized on mini-batches that blend newly generated rollouts with these replayed successes. By replaying high-quality examples, RLEP steers the model away from fruitless exploration, focuses learning on promising reasoning paths, and delivers both faster convergence and stronger final performance. On the Qwen2.5-Math-7B base model, RLEP reaches baseline peak accuracy with substantially fewer updates and ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%, on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our code, datasets, and checkpoints are publicly available at https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further research.
PDF51July 17, 2025