ChatPaper.aiChatPaper

Treinamento Eficiente de RL para LLMs com Repetição de Experiência

Efficient RL Training for LLMs with Experience Replay

April 9, 2026
Autores: Charles Arnal, Vivien Cabannes, Taco Cohen, Julia Kempe, Remi Munos
cs.AI

Resumo

Embora a *Experience Replay* – a prática de armazenar trajectórias de interação e reutilizá-las múltiplas vezes durante o treino – seja uma técnica fundamental no Aprendizado por Reforço (RL) geral, a sua aplicação permanece largamente inexplorada no pós-treinamento de LLMs. Isto deve-se à crença predominante de que dados novos, *on-policy*, são essenciais para um alto desempenho. Neste trabalho, desafiamos essa premissa. Apresentamos um estudo sistemático de *replay buffers* para pós-treinamento de LLMs, formalizando o seu desenho ideal como um compromisso (*trade-off*) entre a variância induzida pela obsolescência dos dados, a diversidade de amostras e o elevado custo computacional da geração. Demonstramos que a amostragem estritamente *on-policy* é subótima quando a geração é dispendiosa. Empiricamente, mostramos que um *replay buffer* bem concebido pode reduzir drasticamente o custo computacional de inferência sem degradar – e, em alguns casos, até melhorando – o desempenho final do modelo, preservando simultaneamente a entropia da política.
English
While Experience Replay - the practice of storing rollouts and reusing them multiple times during training - is a foundational technique in general RL, it remains largely unexplored in LLM post-training due to the prevailing belief that fresh, on-policy data is essential for high performance. In this work, we challenge this assumption. We present a systematic study of replay buffers for LLM post-training, formalizing the optimal design as a trade-off between staleness-induced variance, sample diversity and the high computational cost of generation. We show that strict on-policy sampling is suboptimal when generation is expensive. Empirically, we show that a well-designed replay buffer can drastically reduce inference compute without degrading - and in some cases even improving - final model performance, while preserving policy entropy.
PDF172April 21, 2026