Surmonter l'écart entre entraînement et inférence grâce au FP16

papers.abstract

Le réglage fin par apprentissage par renforcement (RL) des grands modèles de langage (LLM) souffre souvent d'une instabilité due à l'inadéquation numérique entre les politiques d'entraînement et d'inférence. Si les travaux antérieurs ont tenté de remédier à ce problème par des corrections algorithmiques ou des alignements techniques, nous montrons que sa cause fondamentale réside dans la précision des nombres à virgule flottante elle-même. Le format BF16, bien que largement adopté pour sa grande plage dynamique, introduit des erreurs d'arrondi importantes qui rompent la cohérence entre l'entraînement et l'inférence. Dans ce travail, nous démontrons que le simple retour au format FP16 élimine efficacement cette inadéquation. Ce changement est simple, entièrement pris en charge par les frameworks modernes avec seulement quelques lignes de code modifiées, et ne nécessite aucune modification de l'architecture du modèle ou de l'algorithme d'apprentissage. Nos résultats suggèrent qu'une utilisation uniforme du FP16 permet une optimisation plus stable, une convergence plus rapide et de meilleures performances sur diverses tâches, algorithmes et frameworks. Nous espérons que ces conclusions motiveront une reconsidération plus large des compromis de précision dans le réglage fin par RL.

English

Reinforcement learning (RL) fine-tuning of large language models (LLMs) often suffers from instability due to the numerical mismatch between the training and inference policies. While prior work has attempted to mitigate this issue through algorithmic corrections or engineering alignments, we show that its root cause lies in the floating point precision itself. The widely adopted BF16, despite its large dynamic range, introduces large rounding errors that breaks the consistency between training and inference. In this work, we demonstrate that simply reverting to FP16 effectively eliminates this mismatch. The change is simple, fully supported by modern frameworks with only a few lines of code change, and requires no modification to the model architecture or learning algorithm. Our results suggest that using FP16 uniformly yields more stable optimization, faster convergence, and stronger performance across diverse tasks, algorithms and frameworks. We hope these findings motivate a broader reconsideration of precision trade-offs in RL fine-tuning.

Surmonter l'écart entre entraînement et inférence grâce au FP16

Defeating the Training-Inference Mismatch via FP16

papers.abstract

Support