Het overwinnen van de kloof tussen training en inferentie via FP16
Defeating the Training-Inference Mismatch via FP16
October 30, 2025
Auteurs: Penghui Qi, Zichen Liu, Xiangxin Zhou, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Samenvatting
Het finetunen van grote taalmodellen (LLM's) met reinforcement learning (RL) lijdt vaak onder instabiliteit als gevolg van een numerieke mismatch tussen het trainings- en het inferentiebeleid. Hoewel eerder werk heeft geprobeerd dit probleem te verhelpen via algoritmische correcties of technische aanpassingen, tonen wij aan dat de oorzaak ervan ligt in de floating point-precisie zelf. Het veelgebruikte BF16-formaat, ondanks zijn grote dynamisch bereik, introduceert aanzienlijke afrondingsfouten die de consistentie tussen training en inferentie doorbreken. In dit werk demonstreren wij dat eenvoudig terugvallen op FP16 deze mismatch effectief elimineert. De wijziging is eenvoudig, wordt volledig ondersteund door moderne frameworks met slechts enkele regels code-aanpassing, en vereist geen modificatie van de modelarchitectuur of het leeralgoritme. Onze resultaten suggereren dat het uniform gebruiken van FP16 een stabielere optimalisatie, snellere convergentie en sterkere prestaties oplevert over diverse taken, algoritmen en frameworks. Wij hopen dat deze bevindingen aanzetten tot een bredere heroverweging van de afwegingen rondom precisie bij RL-finetuning.
English
Reinforcement learning (RL) fine-tuning of large language models (LLMs) often
suffers from instability due to the numerical mismatch between the training and
inference policies. While prior work has attempted to mitigate this issue
through algorithmic corrections or engineering alignments, we show that its
root cause lies in the floating point precision itself. The widely adopted
BF16, despite its large dynamic range, introduces large rounding errors that
breaks the consistency between training and inference. In this work, we
demonstrate that simply reverting to FP16 effectively eliminates this
mismatch. The change is simple, fully supported by modern frameworks with only
a few lines of code change, and requires no modification to the model
architecture or learning algorithm. Our results suggest that using FP16
uniformly yields more stable optimization, faster convergence, and stronger
performance across diverse tasks, algorithms and frameworks. We hope these
findings motivate a broader reconsideration of precision trade-offs in RL
fine-tuning.