ChatPaper.aiChatPaper

Addestramento Efficiente di LLM con RL tramite Replay delle Esperienze

Efficient RL Training for LLMs with Experience Replay

April 9, 2026
Autori: Charles Arnal, Vivien Cabannes, Taco Cohen, Julia Kempe, Remi Munos
cs.AI

Abstract

Mentre l'Experience Replay - la pratica di memorizzare le traiettorie e riutilizzarle più volte durante l'addestramento - è una tecnica fondamentale nell'RL generale, essa rimane in gran parte inesplorata nel post-addestramento degli LLM a causa della convinzione prevalente che dati freschi e on-policy siano essenziali per ottenere prestazioni elevate. In questo lavoro, mettiamo in discussione questo assunto. Presentiamo uno studio sistematico dei replay buffer per il post-addestramento degli LLM, formalizzando la progettazione ottimale come un compromesso tra la varianza indotta dalla obsolescenza dei dati, la diversità dei campioni e l'elevato costo computazionale della generazione. Dimostriamo che un campionamento rigorosamente on-policy è subottimale quando la generazione è costosa. Empiricamente, mostriamo che un replay buffer ben progettato può ridurre drasticamente il costo computazionale di inferenza senza degradare - e in alcuni casi persino migliorando - le prestazioni finali del modello, preservando al contempo l'entropia della politica.
English
While Experience Replay - the practice of storing rollouts and reusing them multiple times during training - is a foundational technique in general RL, it remains largely unexplored in LLM post-training due to the prevailing belief that fresh, on-policy data is essential for high performance. In this work, we challenge this assumption. We present a systematic study of replay buffers for LLM post-training, formalizing the optimal design as a trade-off between staleness-induced variance, sample diversity and the high computational cost of generation. We show that strict on-policy sampling is suboptimal when generation is expensive. Empirically, we show that a well-designed replay buffer can drastically reduce inference compute without degrading - and in some cases even improving - final model performance, while preserving policy entropy.
PDF172April 21, 2026