Derrotando el Desajuste Entrenamiento-Inferencia mediante FP16

Resumen

El ajuste fino mediante aprendizaje por refuerzo (RL) de modelos de lenguaje grandes (LLM) suele sufrir de inestabilidad debido al desajuste numérico entre las políticas de entrenamiento e inferencia. Si bien trabajos anteriores han intentado mitigar este problema mediante correcciones algorítmicas o alineaciones de ingeniería, demostramos que su causa principal reside en la propia precisión de punto flotante. El ampliamente adoptado BF16, a pesar de su gran rango dinámico, introduce grandes errores de redondeo que rompen la consistencia entre el entrenamiento y la inferencia. En este trabajo, demostramos que simplemente revertir a FP16 elimina eficazmente este desajuste. El cambio es simple, está totalmente soportado por frameworks modernos con solo unas pocas líneas de cambio de código, y no requiere modificación alguna de la arquitectura del modelo o del algoritmo de aprendizaje. Nuestros resultados sugieren que el uso uniforme de FP16 produce una optimización más estable, una convergencia más rápida y un rendimiento más sólido en diversas tareas, algoritmos y frameworks. Esperamos que estos hallazgos motiven una reconsideración más amplia de las compensaciones de precisión en el ajuste fino por RL.

English

Reinforcement learning (RL) fine-tuning of large language models (LLMs) often suffers from instability due to the numerical mismatch between the training and inference policies. While prior work has attempted to mitigate this issue through algorithmic corrections or engineering alignments, we show that its root cause lies in the floating point precision itself. The widely adopted BF16, despite its large dynamic range, introduces large rounding errors that breaks the consistency between training and inference. In this work, we demonstrate that simply reverting to FP16 effectively eliminates this mismatch. The change is simple, fully supported by modern frameworks with only a few lines of code change, and requires no modification to the model architecture or learning algorithm. Our results suggest that using FP16 uniformly yields more stable optimization, faster convergence, and stronger performance across diverse tasks, algorithms and frameworks. We hope these findings motivate a broader reconsideration of precision trade-offs in RL fine-tuning.

Derrotando el Desajuste Entrenamiento-Inferencia mediante FP16

Defeating the Training-Inference Mismatch via FP16

Resumen

Support