Beseitigung der Trainings-Inferenz-Diskrepanz durch FP16

papers.abstract

Das Reinforcement Learning (RL)-Feintuning von großen Sprachmodellen (LLMs) leidet häufig unter Instabilität, die auf eine numerische Diskrepanz zwischen Trainings- und Inferenzpolitiken zurückzuführen ist. Während frühere Arbeiten versucht haben, dieses Problem durch algorithmische Korrekturen oder technische Anpassungen zu mildern, zeigen wir, dass die Ursache in der Gleitkommagenauigkeit selbst liegt. Das weit verbreitete BF16 führt trotz seines großen dynamischen Bereichs zu erheblichen Rundungsfehlern, die die Konsistenz zwischen Training und Inferenz zerstören. In dieser Arbeit demonstrieren wir, dass bereits die einfache Rückkehr zu FP16 diese Diskrepanz wirksam beseitigt. Die Änderung ist einfach, wird von modernen Frameworks vollständig unterstützt, erfordert nur wenige Codezeilen Änderung und keine Modifikation der Modellarchitektur oder des Lernalgorithmus. Unsere Ergebnisse legen nahe, dass die einheitliche Verwendung von FP16 eine stabilere Optimierung, schnellere Konvergenz und eine stärkere Leistung über verschiedene Aufgaben, Algorithmen und Frameworks hinweg bewirkt. Wir hoffen, dass diese Erkenntnisse eine breitere Neubewertung der Präzisionsabwägungen beim RL-Feintuning anregen.

English

Reinforcement learning (RL) fine-tuning of large language models (LLMs) often suffers from instability due to the numerical mismatch between the training and inference policies. While prior work has attempted to mitigate this issue through algorithmic corrections or engineering alignments, we show that its root cause lies in the floating point precision itself. The widely adopted BF16, despite its large dynamic range, introduces large rounding errors that breaks the consistency between training and inference. In this work, we demonstrate that simply reverting to FP16 effectively eliminates this mismatch. The change is simple, fully supported by modern frameworks with only a few lines of code change, and requires no modification to the model architecture or learning algorithm. Our results suggest that using FP16 uniformly yields more stable optimization, faster convergence, and stronger performance across diverse tasks, algorithms and frameworks. We hope these findings motivate a broader reconsideration of precision trade-offs in RL fine-tuning.

Beseitigung der Trainings-Inferenz-Diskrepanz durch FP16

Defeating the Training-Inference Mismatch via FP16

papers.abstract

Support