ChatPaper.aiChatPaper

FP16을 통한 훈련-추론 불일치 해결

Defeating the Training-Inference Mismatch via FP16

October 30, 2025
저자: Penghui Qi, Zichen Liu, Xiangxin Zhou, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI

초록

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정은 학습 정책과 추론 정책 간의 수치적 불일치로 인해 불안정성을 겪는 경우가 많습니다. 기존 연구에서는 알고리즘적 보정이나 엔지니어링적 조정을 통해 이 문제를 완화하려 시도해왔지만, 우리는 그 근본 원인이 부동소수점 정밀도 자체에 있음을 보여줍니다. 널리 채택된 BF16은 넓은 동적 범위에도 불구하고, 큰 반올림 오차를 유발하여 학습과 추론 간의 일관성을 해칩니다. 본 연구에서는 단순히 FP16으로 되돌리는 것만으로도 이러한 불일치를 효과적으로 해소할 수 있음을 입증합니다. 이 변경은 간단하며, 현대 프레임워크에서 완벽히 지원되어 단 몇 줄의 코드 변경만으로 구현 가능하고, 모델 구조나 학습 알고리즘 수정이 필요하지 않습니다. 우리의 실험 결과는 FP16을 일관적으로 사용할 때 더 안정적인 최적화, 더 빠른 수렴, 다양한 작업과 알고리즘 및 프레임워크에서 더 강력한 성능을 얻을 수 있음을 시사합니다. 이러한 발견이 RL 미세 조정에서 정밀도 트레이드오프에 대한 폭넓은 재고를 촉진하기를 바랍니다.
English
Reinforcement learning (RL) fine-tuning of large language models (LLMs) often suffers from instability due to the numerical mismatch between the training and inference policies. While prior work has attempted to mitigate this issue through algorithmic corrections or engineering alignments, we show that its root cause lies in the floating point precision itself. The widely adopted BF16, despite its large dynamic range, introduces large rounding errors that breaks the consistency between training and inference. In this work, we demonstrate that simply reverting to FP16 effectively eliminates this mismatch. The change is simple, fully supported by modern frameworks with only a few lines of code change, and requires no modification to the model architecture or learning algorithm. Our results suggest that using FP16 uniformly yields more stable optimization, faster convergence, and stronger performance across diverse tasks, algorithms and frameworks. We hope these findings motivate a broader reconsideration of precision trade-offs in RL fine-tuning.
PDF311February 7, 2026