Победа над несоответствием между обучением и выводом с помощью FP16
Defeating the Training-Inference Mismatch via FP16
October 30, 2025
Авторы: Penghui Qi, Zichen Liu, Xiangxin Zhou, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Аннотация
Тонкая настройка крупных языковых моделей (LLM) с помощью обучения с подкреплением (RL) часто страдает от нестабильности из-за численного несоответствия между политиками обучения и вывода. В то время как предыдущие работы пытались смягчить эту проблему с помощью алгоритмических корректировок или инженерных согласований, мы показываем, что её коренная причина кроется в самой точности представления чисел с плавающей запятой. Широко используемый формат BF16, несмотря на свой широкий динамический диапазон, вносит значительные ошибки округления, которые нарушают согласованность между обучением и выводом. В данной работе мы демонстрируем, что простой возврат к формату FP16 эффективно устраняет это несоответствие. Это изменение является простым, полностью поддерживается современными фреймворками с модификацией всего нескольких строк кода и не требует изменений в архитектуре модели или алгоритме обучения. Наши результаты свидетельствуют, что единообразное использование FP16 обеспечивает более стабильную оптимизацию, ускоренную сходимость и улучшенную производительность в разнообразных задачах, алгоритмах и фреймворках. Мы надеемся, что эти выводы побудят к более широкому пересмотру компромиссов, связанных с точностью представления чисел, при RL-тонкой настройке.
English
Reinforcement learning (RL) fine-tuning of large language models (LLMs) often
suffers from instability due to the numerical mismatch between the training and
inference policies. While prior work has attempted to mitigate this issue
through algorithmic corrections or engineering alignments, we show that its
root cause lies in the floating point precision itself. The widely adopted
BF16, despite its large dynamic range, introduces large rounding errors that
breaks the consistency between training and inference. In this work, we
demonstrate that simply reverting to FP16 effectively eliminates this
mismatch. The change is simple, fully supported by modern frameworks with only
a few lines of code change, and requires no modification to the model
architecture or learning algorithm. Our results suggest that using FP16
uniformly yields more stable optimization, faster convergence, and stronger
performance across diverse tasks, algorithms and frameworks. We hope these
findings motivate a broader reconsideration of precision trade-offs in RL
fine-tuning.