ChatPaper.aiChatPaper

RLEP: Apprendimento per Rinforzo con Replay delle Esperienze per il Ragionamento dei Modelli Linguistici di Grande Dimensione

RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

July 10, 2025
Autori: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI

Abstract

L'apprendimento per rinforzo (Reinforcement Learning, RL) per i modelli linguistici di grandi dimensioni è un'impresa ad alta intensità energetica: l'addestramento può essere instabile e la politica potrebbe gradualmente allontanarsi dai pesi pre-addestrati. Presentiamo RLEP (Reinforcement Learning with Experience rePlay), un framework in due fasi che prima raccoglie traiettorie verificate e poi le riproduce durante l'addestramento successivo. Ad ogni passo di aggiornamento, la politica viene ottimizzata su mini-batch che mescolano rollout generati di recente con questi successi riprodotti. Riproducendo esempi di alta qualità, RLEP allontana il modello da esplorazioni infruttuose, concentra l'apprendimento su percorsi di ragionamento promettenti e garantisce sia una convergenza più rapida che prestazioni finali più solide. Sul modello base Qwen2.5-Math-7B, RLEP raggiunge l'accuratezza di picco di riferimento con un numero sostanzialmente inferiore di aggiornamenti e alla fine la supera, migliorando l'accuratezza su AIME-2024 dal 38,2% al 39,9%, su AIME-2025 dal 19,8% al 22,3% e su AMC-2023 dal 77,0% all'82,2%. Il nostro codice, i dataset e i checkpoint sono pubblicamente disponibili all'indirizzo https://github.com/Kwai-Klear/RLEP per facilitare la riproducibilità e ulteriori ricerche.
English
Reinforcement learning (RL) for large language models is an energy-intensive endeavor: training can be unstable, and the policy may gradually drift away from its pretrained weights. We present RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,a two-phase framework that first collects verified trajectories and then replays them during subsequent training. At every update step, the policy is optimized on mini-batches that blend newly generated rollouts with these replayed successes. By replaying high-quality examples, RLEP steers the model away from fruitless exploration, focuses learning on promising reasoning paths, and delivers both faster convergence and stronger final performance. On the Qwen2.5-Math-7B base model, RLEP reaches baseline peak accuracy with substantially fewer updates and ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%, on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our code, datasets, and checkpoints are publicly available at https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further research.
PDF31July 17, 2025