Het overwinnen van de kloof tussen training en inferentie via FP16

Samenvatting

Het finetunen van grote taalmodellen (LLM's) met reinforcement learning (RL) lijdt vaak onder instabiliteit als gevolg van een numerieke mismatch tussen het trainings- en het inferentiebeleid. Hoewel eerder werk heeft geprobeerd dit probleem te verhelpen via algoritmische correcties of technische aanpassingen, tonen wij aan dat de oorzaak ervan ligt in de floating point-precisie zelf. Het veelgebruikte BF16-formaat, ondanks zijn grote dynamisch bereik, introduceert aanzienlijke afrondingsfouten die de consistentie tussen training en inferentie doorbreken. In dit werk demonstreren wij dat eenvoudig terugvallen op FP16 deze mismatch effectief elimineert. De wijziging is eenvoudig, wordt volledig ondersteund door moderne frameworks met slechts enkele regels code-aanpassing, en vereist geen modificatie van de modelarchitectuur of het leeralgoritme. Onze resultaten suggereren dat het uniform gebruiken van FP16 een stabielere optimalisatie, snellere convergentie en sterkere prestaties oplevert over diverse taken, algoritmen en frameworks. Wij hopen dat deze bevindingen aanzetten tot een bredere heroverweging van de afwegingen rondom precisie bij RL-finetuning.

English

Reinforcement learning (RL) fine-tuning of large language models (LLMs) often suffers from instability due to the numerical mismatch between the training and inference policies. While prior work has attempted to mitigate this issue through algorithmic corrections or engineering alignments, we show that its root cause lies in the floating point precision itself. The widely adopted BF16, despite its large dynamic range, introduces large rounding errors that breaks the consistency between training and inference. In this work, we demonstrate that simply reverting to FP16 effectively eliminates this mismatch. The change is simple, fully supported by modern frameworks with only a few lines of code change, and requires no modification to the model architecture or learning algorithm. Our results suggest that using FP16 uniformly yields more stable optimization, faster convergence, and stronger performance across diverse tasks, algorithms and frameworks. We hope these findings motivate a broader reconsideration of precision trade-offs in RL fine-tuning.

Het overwinnen van de kloof tussen training en inferentie via FP16

Defeating the Training-Inference Mismatch via FP16

Samenvatting

Support