Efficiënte RL-training voor LLM's met Ervaringsterugspeeling

Samenvatting

Hoewel Experience Replay - de praktijk van het opslaan van rollouts en deze meermaals te hergebruiken tijdens training - een fundamentele techniek is in algemene RL, blijft deze grotendeels onontgonnen bij LLM-natraining vanwege de heersende overtuiging dat verse, on-policy data essentieel is voor hoge prestaties. In dit werk dagen we deze aanname uit. We presenteren een systematische studie van replaybuffers voor LLM-natraining, waarbij we het optimale ontwerp formaliseren als een afweging tussen verouderingsgeïnduceerde variantie, steekproefdiversiteit en de hoge computationele kosten van generatie. We tonen aan dat strikte on-policy steekproefname suboptimaal is wanneer generatie duur is. Empirisch laten we zien dat een goed ontworpen replaybuffer de inferentie-rekenkracht drastisch kan verminderen zonder de uiteindelijke modelprestaties te verslechteren - en in sommige gevallen zelfs te verbeteren - terwijl de policy-entropie behouden blijft.

English

While Experience Replay - the practice of storing rollouts and reusing them multiple times during training - is a foundational technique in general RL, it remains largely unexplored in LLM post-training due to the prevailing belief that fresh, on-policy data is essential for high performance. In this work, we challenge this assumption. We present a systematic study of replay buffers for LLM post-training, formalizing the optimal design as a trade-off between staleness-induced variance, sample diversity and the high computational cost of generation. We show that strict on-policy sampling is suboptimal when generation is expensive. Empirically, we show that a well-designed replay buffer can drastically reduce inference compute without degrading - and in some cases even improving - final model performance, while preserving policy entropy.

Efficiënte RL-training voor LLM's met Ervaringsterugspeeling

Efficient RL Training for LLMs with Experience Replay

Samenvatting

Support