ChatPaper.aiChatPaper

RLEP : Apprentissage par Renforcement avec Replay d'Expérience pour le Raisonnement des Modèles de Langage de Grande Taille

RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

July 10, 2025
papers.authors: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) pour les grands modèles de langage est une entreprise énergivore : l'entraînement peut être instable, et la politique peut progressivement s'éloigner de ses poids pré-entraînés. Nous présentons RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,un cadre en deux phases qui collecte d'abord des trajectoires vérifiées puis les rejoue lors des entraînements ultérieurs. À chaque étape de mise à jour, la politique est optimisée sur des mini-lots qui mélangent des déploiements nouvellement générés avec ces succès rejoués. En rejouant des exemples de haute qualité, RLEP guide le modèle loin des explorations infructueuses, concentre l'apprentissage sur des chemins de raisonnement prometteurs, et offre à la fois une convergence plus rapide et une performance finale supérieure. Sur le modèle de base Qwen2.5-Math-7B, RLEP atteint la précision maximale de référence avec nettement moins de mises à jour et finit par la surpasser, améliorant la précision sur AIME-2024 de 38,2% à 39,9%, sur AIME-2025 de 19,8% à 22,3%, et sur AMC-2023 de 77,0% à 82,2%. Notre code, jeux de données et points de contrôle sont disponibles publiquement à l'adresse https://github.com/Kwai-Klear/RLEP pour faciliter la reproductibilité et les recherches ultérieures.
English
Reinforcement learning (RL) for large language models is an energy-intensive endeavor: training can be unstable, and the policy may gradually drift away from its pretrained weights. We present RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,a two-phase framework that first collects verified trajectories and then replays them during subsequent training. At every update step, the policy is optimized on mini-batches that blend newly generated rollouts with these replayed successes. By replaying high-quality examples, RLEP steers the model away from fruitless exploration, focuses learning on promising reasoning paths, and delivers both faster convergence and stronger final performance. On the Qwen2.5-Math-7B base model, RLEP reaches baseline peak accuracy with substantially fewer updates and ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%, on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our code, datasets, and checkpoints are publicly available at https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further research.
PDF31July 17, 2025