RLEP: Aprendizaje por Refuerzo con Replay de Experiencias para el Razonamiento de Modelos de Lenguaje Grande
RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning
July 10, 2025
Autores: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) para modelos de lenguaje de gran escala es una tarea que consume mucha energía: el entrenamiento puede ser inestable, y la política puede desviarse gradualmente de sus pesos preentrenados. Presentamos RLEP (Reinforcement Learning with Experience rePlay), un marco de trabajo de dos fases que primero recopila trayectorias verificadas y luego las reproduce durante el entrenamiento posterior. En cada paso de actualización, la política se optimiza en mini-lotes que combinan nuevas ejecuciones generadas con estos éxitos reproducidos. Al reproducir ejemplos de alta calidad, RLEP guía al modelo lejos de exploraciones infructuosas, enfoca el aprendizaje en caminos de razonamiento prometedores y ofrece una convergencia más rápida y un rendimiento final más sólido. En el modelo base Qwen2.5-Math-7B, RLEP alcanza la precisión máxima de referencia con sustancialmente menos actualizaciones y finalmente la supera, mejorando la precisión en AIME-2024 del 38.2% al 39.9%, en AIME-2025 del 19.8% al 22.3%, y en AMC-2023 del 77.0% al 82.2%. Nuestro código, conjuntos de datos y puntos de control están disponibles públicamente en https://github.com/Kwai-Klear/RLEP para facilitar la reproducibilidad y futuras investigaciones.
English
Reinforcement learning (RL) for large language models is an energy-intensive
endeavor: training can be unstable, and the policy may gradually drift away
from its pretrained weights. We present RLEP\, -- \,Reinforcement
Learning with Experience rePlay\, -- \,a two-phase framework that first
collects verified trajectories and then replays them during subsequent
training. At every update step, the policy is optimized on mini-batches that
blend newly generated rollouts with these replayed successes. By replaying
high-quality examples, RLEP steers the model away from fruitless exploration,
focuses learning on promising reasoning paths, and delivers both faster
convergence and stronger final performance. On the Qwen2.5-Math-7B base model,
RLEP reaches baseline peak accuracy with substantially fewer updates and
ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%,
on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our
code, datasets, and checkpoints are publicly available at
https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further
research.