RLEP: Aprendizaje por Refuerzo con Replay de Experiencias para el Razonamiento de Modelos de Lenguaje Grande

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) para modelos de lenguaje de gran escala es una tarea que consume mucha energía: el entrenamiento puede ser inestable, y la política puede desviarse gradualmente de sus pesos preentrenados. Presentamos RLEP (Reinforcement Learning with Experience rePlay), un marco de trabajo de dos fases que primero recopila trayectorias verificadas y luego las reproduce durante el entrenamiento posterior. En cada paso de actualización, la política se optimiza en mini-lotes que combinan nuevas ejecuciones generadas con estos éxitos reproducidos. Al reproducir ejemplos de alta calidad, RLEP guía al modelo lejos de exploraciones infructuosas, enfoca el aprendizaje en caminos de razonamiento prometedores y ofrece una convergencia más rápida y un rendimiento final más sólido. En el modelo base Qwen2.5-Math-7B, RLEP alcanza la precisión máxima de referencia con sustancialmente menos actualizaciones y finalmente la supera, mejorando la precisión en AIME-2024 del 38.2% al 39.9%, en AIME-2025 del 19.8% al 22.3%, y en AMC-2023 del 77.0% al 82.2%. Nuestro código, conjuntos de datos y puntos de control están disponibles públicamente en https://github.com/Kwai-Klear/RLEP para facilitar la reproducibilidad y futuras investigaciones.

English

Reinforcement learning (RL) for large language models is an energy-intensive endeavor: training can be unstable, and the policy may gradually drift away from its pretrained weights. We present RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,a two-phase framework that first collects verified trajectories and then replays them during subsequent training. At every update step, the policy is optimized on mini-batches that blend newly generated rollouts with these replayed successes. By replaying high-quality examples, RLEP steers the model away from fruitless exploration, focuses learning on promising reasoning paths, and delivers both faster convergence and stronger final performance. On the Qwen2.5-Math-7B base model, RLEP reaches baseline peak accuracy with substantially fewer updates and ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%, on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our code, datasets, and checkpoints are publicly available at https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further research.

RLEP: Aprendizaje por Refuerzo con Replay de Experiencias para el Razonamiento de Modelos de Lenguaje Grande

RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

Resumen

Support