RLEP: Apprendimento per Rinforzo con Replay delle Esperienze per il Ragionamento dei Modelli Linguistici di Grande Dimensione
RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning
July 10, 2025
Autori: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI
Abstract
L'apprendimento per rinforzo (Reinforcement Learning, RL) per i modelli linguistici di grandi dimensioni è un'impresa ad alta intensità energetica: l'addestramento può essere instabile e la politica potrebbe gradualmente allontanarsi dai pesi pre-addestrati. Presentiamo RLEP (Reinforcement Learning with Experience rePlay), un framework in due fasi che prima raccoglie traiettorie verificate e poi le riproduce durante l'addestramento successivo. Ad ogni passo di aggiornamento, la politica viene ottimizzata su mini-batch che mescolano rollout generati di recente con questi successi riprodotti. Riproducendo esempi di alta qualità, RLEP allontana il modello da esplorazioni infruttuose, concentra l'apprendimento su percorsi di ragionamento promettenti e garantisce sia una convergenza più rapida che prestazioni finali più solide. Sul modello base Qwen2.5-Math-7B, RLEP raggiunge l'accuratezza di picco di riferimento con un numero sostanzialmente inferiore di aggiornamenti e alla fine la supera, migliorando l'accuratezza su AIME-2024 dal 38,2% al 39,9%, su AIME-2025 dal 19,8% al 22,3% e su AMC-2023 dal 77,0% all'82,2%. Il nostro codice, i dataset e i checkpoint sono pubblicamente disponibili all'indirizzo https://github.com/Kwai-Klear/RLEP per facilitare la riproducibilità e ulteriori ricerche.
English
Reinforcement learning (RL) for large language models is an energy-intensive
endeavor: training can be unstable, and the policy may gradually drift away
from its pretrained weights. We present RLEP\, -- \,Reinforcement
Learning with Experience rePlay\, -- \,a two-phase framework that first
collects verified trajectories and then replays them during subsequent
training. At every update step, the policy is optimized on mini-batches that
blend newly generated rollouts with these replayed successes. By replaying
high-quality examples, RLEP steers the model away from fruitless exploration,
focuses learning on promising reasoning paths, and delivers both faster
convergence and stronger final performance. On the Qwen2.5-Math-7B base model,
RLEP reaches baseline peak accuracy with substantially fewer updates and
ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%,
on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our
code, datasets, and checkpoints are publicly available at
https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further
research.