ChatPaper.aiChatPaper

Por Que o Treinamento de Transformadores com Baixa Precisão Falha: Uma Análise sobre a Atenção Flash

Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

October 5, 2025
Autores: Haiquan Qiu, Quanming Yao
cs.AI

Resumo

A busca por eficiência computacional tem impulsionado a adoção de formatos de baixa precisão para o treinamento de modelos transformadores. No entanto, esse progresso é frequentemente dificultado por instabilidades notórias durante o treinamento. Este artigo fornece a primeira explicação mecanicista para um caso de falha antigo e não resolvido, no qual o treinamento com atenção flash em configurações de baixa precisão leva a explosões catastróficas de perda. Nossa análise detalhada revela que a falha não é um artefato aleatório, mas causada por dois fenômenos interligados: o surgimento de representações de baixo posto semelhantes dentro do mecanismo de atenção e o efeito cumulativo de erros de arredondamento tendenciosos inerentes à aritmética de baixa precisão. Demonstramos como esses fatores criam um ciclo vicioso de acúmulo de erros que corrompe as atualizações de pesos, acabando por desestabilizar a dinâmica de treinamento. Para validar nossas descobertas, introduzimos uma modificação mínima na atenção flash que mitiga o viés nos erros de arredondamento. Essa mudança simples estabiliza o processo de treinamento, confirmando nossa análise e oferecendo uma solução prática para esse problema persistente.
English
The pursuit of computational efficiency has driven the adoption of low-precision formats for training transformer models. However, this progress is often hindered by notorious training instabilities. This paper provides the first mechanistic explanation for a long-standing and unresolved failure case where training with flash attention in low-precision settings leads to catastrophic loss explosions. Our in-depth analysis reveals that the failure is not a random artifact but caused by two intertwined phenomena: the emergence of similar low-rank representations within the attention mechanism and the compounding effect of biased rounding errors inherent in low-precision arithmetic. We demonstrate how these factors create a vicious cycle of error accumulation that corrupts weight updates, ultimately derailing the training dynamics. To validate our findings, we introduce a minimal modification to the flash attention that mitigates the bias in rounding errors. This simple change stabilizes the training process, confirming our analysis and offering a practical solution to this persistent problem.
PDF222October 9, 2025