Derrotando o Descompasso entre Treinamento e Inferência via FP16

Resumo

O ajuste fino por aprendizagem por reforço (RL) de grandes modelos de linguagem (LLMs) frequentemente sofre de instabilidade devido ao descompasso numérico entre as políticas de treinamento e inferência. Embora trabalhos anteriores tenham tentado mitigar este problema através de correções algorítmicas ou alinhamentos de engenharia, demonstramos que a sua causa raiz reside na própria precisão de ponto flutuante. O amplamente adotado BF16, apesar da sua grande faixa dinâmica, introduz grandes erros de arredondamento que quebram a consistência entre o treinamento e a inferência. Neste trabalho, demonstramos que simplesmente reverter para o FP16 elimina eficazmente este descompasso. A alteração é simples, totalmente suportada por frameworks modernos com apenas algumas linhas de código alteradas, e não requer modificação na arquitetura do modelo ou no algoritmo de aprendizagem. Nossos resultados sugerem que o uso uniforme do FP16 produz uma otimização mais estável, convergência mais rápida e desempenho superior em diversas tarefas, algoritmos e frameworks. Esperamos que estas descobertas motivem uma reconsideração mais ampla dos trade-offs de precisão no ajuste fino por RL.

English

Reinforcement learning (RL) fine-tuning of large language models (LLMs) often suffers from instability due to the numerical mismatch between the training and inference policies. While prior work has attempted to mitigate this issue through algorithmic corrections or engineering alignments, we show that its root cause lies in the floating point precision itself. The widely adopted BF16, despite its large dynamic range, introduces large rounding errors that breaks the consistency between training and inference. In this work, we demonstrate that simply reverting to FP16 effectively eliminates this mismatch. The change is simple, fully supported by modern frameworks with only a few lines of code change, and requires no modification to the model architecture or learning algorithm. Our results suggest that using FP16 uniformly yields more stable optimization, faster convergence, and stronger performance across diverse tasks, algorithms and frameworks. We hope these findings motivate a broader reconsideration of precision trade-offs in RL fine-tuning.

Derrotando o Descompasso entre Treinamento e Inferência via FP16

Defeating the Training-Inference Mismatch via FP16

Resumo

Support