ChatPaper.aiChatPaper

Effizientes Reinforcement-Learning-Training für LLMs mit Experience Replay

Efficient RL Training for LLMs with Experience Replay

April 9, 2026
Autoren: Charles Arnal, Vivien Cabannes, Taco Cohen, Julia Kempe, Remi Munos
cs.AI

Zusammenfassung

Während Experience Replay – die Praxis, Rollouts zu speichern und sie während des Trainings mehrfach wiederzuverwenden – eine grundlegende Technik im allgemeinen Reinforcement Learning (RL) ist, bleibt sie im Post-Training von LLMs weitgehend unerforscht. Dies liegt an der vorherrschenden Annahme, dass frische, on-policy Daten für hohe Leistung entscheidend sind. In dieser Arbeit stellen wir diese Annahme in Frage. Wir präsentieren eine systematische Untersuchung von Replay Buffers für das LLM-Post-Training, bei der wir das optimale Design als einen Kompromiss zwischen durch Veraltung verursachter Varianz, Stichprobenvielfalt und den hohen Rechenkosten der Generierung formalisieren. Wir zeigen, dass striktes On-Policy-Sampling suboptimal ist, wenn die Generierung teuer ist. Empirisch zeigen wir, dass ein gut konzipierter Replay Buffer den Inferenz-Rechenaufwand drastisch reduzieren kann, ohne die Endleistung des Modells zu verschlechtern – und sie in einigen Fällen sogar zu verbessern – und dabei gleichzeitig die Policy-Entropie erhält.
English
While Experience Replay - the practice of storing rollouts and reusing them multiple times during training - is a foundational technique in general RL, it remains largely unexplored in LLM post-training due to the prevailing belief that fresh, on-policy data is essential for high performance. In this work, we challenge this assumption. We present a systematic study of replay buffers for LLM post-training, formalizing the optimal design as a trade-off between staleness-induced variance, sample diversity and the high computational cost of generation. We show that strict on-policy sampling is suboptimal when generation is expensive. Empirically, we show that a well-designed replay buffer can drastically reduce inference compute without degrading - and in some cases even improving - final model performance, while preserving policy entropy.
PDF91April 15, 2026