Почему обучение трансформеров с низкой точностью терпит неудачу: анализ на основе Flash Attention
Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
October 5, 2025
Авторы: Haiquan Qiu, Quanming Yao
cs.AI
Аннотация
Стремление к вычислительной эффективности привело к широкому использованию низкоточных форматов для обучения трансформаторных моделей. Однако этот прогресс часто сдерживается известными проблемами нестабильности обучения. В данной статье впервые предлагается механистическое объяснение давней и нерешенной проблемы, при которой обучение с использованием flash attention в условиях низкой точности приводит к катастрофическим взрывам потерь. Наш детальный анализ показывает, что эта проблема не является случайным артефактом, а вызвана двумя взаимосвязанными явлениями: возникновением схожих низкоранговых представлений в механизме внимания и кумулятивным эффектом смещенных ошибок округления, присущих низкоточной арифметике. Мы демонстрируем, как эти факторы создают порочный цикл накопления ошибок, который искажает обновления весов и в конечном итоге нарушает динамику обучения. Для подтверждения наших выводов мы предлагаем минимальную модификацию flash attention, которая устраняет смещение в ошибках округления. Это простое изменение стабилизирует процесс обучения, подтверждая наш анализ и предлагая практическое решение этой давней проблемы.
English
The pursuit of computational efficiency has driven the adoption of
low-precision formats for training transformer models. However, this progress
is often hindered by notorious training instabilities. This paper provides the
first mechanistic explanation for a long-standing and unresolved failure case
where training with flash attention in low-precision settings leads to
catastrophic loss explosions. Our in-depth analysis reveals that the failure is
not a random artifact but caused by two intertwined phenomena: the emergence of
similar low-rank representations within the attention mechanism and the
compounding effect of biased rounding errors inherent in low-precision
arithmetic. We demonstrate how these factors create a vicious cycle of error
accumulation that corrupts weight updates, ultimately derailing the training
dynamics. To validate our findings, we introduce a minimal modification to the
flash attention that mitigates the bias in rounding errors. This simple change
stabilizes the training process, confirming our analysis and offering a
practical solution to this persistent problem.