Entraînement efficace des LLM par renforcement avec relecture d'expériences

Résumé

Si l'Experience Replay – pratique consistant à stocker des épisodes d'interaction et à les réutiliser plusieurs fois pendant l'entraînement – est une technique fondamentale en apprentissage par renforcement général, elle reste largement inexplorée dans le post-entraînement des LLM en raison de la croyance dominante que des données fraîches et on-policy sont essentielles pour des performances élevées. Dans ce travail, nous remettons en cause cette hypothèse. Nous présentons une étude systématique des mémoires de replay pour le post-entraînement des LLM, en formalisant la conception optimale comme un compromis entre la variance induite par l'obsolescence des données, la diversité des échantillons et le coût computationnel élevé de la génération. Nous montrons qu'un échantillonnage strictement on-policy est sous-optimal lorsque la génération est coûteuse. Empiriquement, nous démontrons qu'une mémoire de replay bien conçue peut réduire considérablement le calcul d'inférence sans dégrader – et dans certains cas même améliorer – les performances finales du modèle, tout en préservant l'entropie de la politique.

English

While Experience Replay - the practice of storing rollouts and reusing them multiple times during training - is a foundational technique in general RL, it remains largely unexplored in LLM post-training due to the prevailing belief that fresh, on-policy data is essential for high performance. In this work, we challenge this assumption. We present a systematic study of replay buffers for LLM post-training, formalizing the optimal design as a trade-off between staleness-induced variance, sample diversity and the high computational cost of generation. We show that strict on-policy sampling is suboptimal when generation is expensive. Empirically, we show that a well-designed replay buffer can drastically reduce inference compute without degrading - and in some cases even improving - final model performance, while preserving policy entropy.

Entraînement efficace des LLM par renforcement avec relecture d'expériences

Efficient RL Training for LLMs with Experience Replay

Résumé

Support