Эффективное обучение с подкреплением для больших языковых моделей с использованием воспроизведения опыта
Efficient RL Training for LLMs with Experience Replay
April 9, 2026
Авторы: Charles Arnal, Vivien Cabannes, Taco Cohen, Julia Kempe, Remi Munos
cs.AI
Аннотация
Хотя воспроизведение опыта — практика сохранения траекторий и их многократного повторного использования во время обучения — является фундаментальной техникой в обучении с подкреплением в целом, оно остается в значительной степени неисследованным в пост-обучении больших языковых моделей из-за преобладающего убеждения, что свежие, соответствующие текущей политике данные необходимы для высокой производительности. В данной работе мы оспариваем это предположение. Мы представляем систематическое исследование буферов воспроизведения для пост-обучения БЯМ, формализуя их оптимальный проект как компромисс между дисперсией, вызванной устареванием данных, разнообразием выборки и высокими вычислительными затратами на генерацию. Мы показываем, что строгая выборка в соответствии с текущей политикой неоптимальна, когда генерация данных является дорогостоящей. Эмпирически мы демонстрируем, что хорошо спроектированный буфер воспроизведения может кардинально сократить вычислительные затраты на вывод без ухудшения — а в некоторых случаях даже с улучшением — итоговой производительности модели, сохраняя при этом энтропию политики.
English
While Experience Replay - the practice of storing rollouts and reusing them multiple times during training - is a foundational technique in general RL, it remains largely unexplored in LLM post-training due to the prevailing belief that fresh, on-policy data is essential for high performance. In this work, we challenge this assumption. We present a systematic study of replay buffers for LLM post-training, formalizing the optimal design as a trade-off between staleness-induced variance, sample diversity and the high computational cost of generation. We show that strict on-policy sampling is suboptimal when generation is expensive. Empirically, we show that a well-designed replay buffer can drastically reduce inference compute without degrading - and in some cases even improving - final model performance, while preserving policy entropy.