Entrenamiento Eficiente de RL para LLM con Reproducción de Experiencias

Resumen

Si bien la _Replay de Experiencias_ —la práctica de almacenar trayectorias y reutilizarlas múltiples veces durante el entrenamiento— es una técnica fundamental en el Aprendizaje por Refuerzo (RL) general, su aplicación en el post-entrenamiento de Modelos de Lenguaje Grandes (LLM) permanece en gran medida inexplorada debido a la creencia predominante de que los datos nuevos y _on-policy_ son esenciales para un alto rendimiento. En este trabajo, cuestionamos esta suposición. Presentamos un estudio sistemático de los búferes de replay para el post-entrenamiento de LLM, formalizando su diseño óptimo como un equilibrio entre la varianza inducida por la obsolescencia de los datos, la diversidad de las muestras y el alto coste computacional de la generación. Demostramos que el muestreo estrictamente _on-policy_ es subóptimo cuando la generación es costosa. Empíricamente, mostramos que un búfer de replay bien diseñado puede reducir drásticamente el coste computacional de inferencia sin degradar —e incluso mejorando en algunos casos— el rendimiento final del modelo, al tiempo que se preserva la entropía de la política.

English

While Experience Replay - the practice of storing rollouts and reusing them multiple times during training - is a foundational technique in general RL, it remains largely unexplored in LLM post-training due to the prevailing belief that fresh, on-policy data is essential for high performance. In this work, we challenge this assumption. We present a systematic study of replay buffers for LLM post-training, formalizing the optimal design as a trade-off between staleness-induced variance, sample diversity and the high computational cost of generation. We show that strict on-policy sampling is suboptimal when generation is expensive. Empirically, we show that a well-designed replay buffer can drastically reduce inference compute without degrading - and in some cases even improving - final model performance, while preserving policy entropy.

Entrenamiento Eficiente de RL para LLM con Reproducción de Experiencias

Efficient RL Training for LLMs with Experience Replay

Resumen

Support