ChatPaper.aiChatPaper

Por qué falla el entrenamiento de transformadores de baja precisión: un análisis sobre Flash Attention

Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

October 5, 2025
Autores: Haiquan Qiu, Quanming Yao
cs.AI

Resumen

La búsqueda de eficiencia computacional ha impulsado la adopción de formatos de baja precisión para entrenar modelos transformadores. Sin embargo, este progreso a menudo se ve obstaculizado por notorias inestabilidades durante el entrenamiento. Este artículo proporciona la primera explicación mecanicista de un caso de fallo persistente y no resuelto, en el que el entrenamiento con atención flash en configuraciones de baja precisión conduce a explosiones catastróficas de la pérdida. Nuestro análisis en profundidad revela que el fallo no es un artefacto aleatorio, sino que está causado por dos fenómenos interrelacionados: la aparición de representaciones de bajo rango similares dentro del mecanismo de atención y el efecto acumulativo de errores de redondeo sesgados inherentes a la aritmética de baja precisión. Demostramos cómo estos factores crean un ciclo vicioso de acumulación de errores que corrompe las actualizaciones de los pesos, desviando finalmente la dinámica del entrenamiento. Para validar nuestros hallazgos, introducimos una modificación mínima a la atención flash que mitiga el sesgo en los errores de redondeo. Este simple cambio estabiliza el proceso de entrenamiento, confirmando nuestro análisis y ofreciendo una solución práctica a este problema persistente.
English
The pursuit of computational efficiency has driven the adoption of low-precision formats for training transformer models. However, this progress is often hindered by notorious training instabilities. This paper provides the first mechanistic explanation for a long-standing and unresolved failure case where training with flash attention in low-precision settings leads to catastrophic loss explosions. Our in-depth analysis reveals that the failure is not a random artifact but caused by two intertwined phenomena: the emergence of similar low-rank representations within the attention mechanism and the compounding effect of biased rounding errors inherent in low-precision arithmetic. We demonstrate how these factors create a vicious cycle of error accumulation that corrupts weight updates, ultimately derailing the training dynamics. To validate our findings, we introduce a minimal modification to the flash attention that mitigates the bias in rounding errors. This simple change stabilizes the training process, confirming our analysis and offering a practical solution to this persistent problem.
PDF192October 9, 2025