Perché l'Addestramento di Trasformatori a Bassa Precisione Fallisce: Un'Analisi su Flash Attention
Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
October 5, 2025
Autori: Haiquan Qiu, Quanming Yao
cs.AI
Abstract
La ricerca dell'efficienza computazionale ha favorito l'adozione di formati a bassa precisione per l'addestramento di modelli transformer. Tuttavia, questo progresso è spesso ostacolato da notorie instabilità durante l'addestramento. Questo articolo fornisce la prima spiegazione meccanicistica di un caso di fallimento irrisolto e di lunga data, in cui l'addestramento con flash attention in contesti a bassa precisione porta a esplosioni catastrofiche della funzione di perdita. La nostra analisi approfondita rivela che il fallimento non è un artefatto casuale, ma è causato da due fenomeni intrecciati: l'emergere di rappresentazioni a basso rango simili all'interno del meccanismo di attenzione e l'effetto cumulativo degli errori di arrotondamento distorti intrinseci all'aritmetica a bassa precisione. Dimostriamo come questi fattori creino un circolo vizioso di accumulo di errori che corrompe gli aggiornamenti dei pesi, portando infine al deragliamento della dinamica di addestramento. Per validare le nostre scoperte, introduciamo una modifica minima alla flash attention che mitiga il bias negli errori di arrotondamento. Questo semplice cambiamento stabilizza il processo di addestramento, confermando la nostra analisi e offrendo una soluzione pratica a questo problema persistente.
English
The pursuit of computational efficiency has driven the adoption of
low-precision formats for training transformer models. However, this progress
is often hindered by notorious training instabilities. This paper provides the
first mechanistic explanation for a long-standing and unresolved failure case
where training with flash attention in low-precision settings leads to
catastrophic loss explosions. Our in-depth analysis reveals that the failure is
not a random artifact but caused by two intertwined phenomena: the emergence of
similar low-rank representations within the attention mechanism and the
compounding effect of biased rounding errors inherent in low-precision
arithmetic. We demonstrate how these factors create a vicious cycle of error
accumulation that corrupts weight updates, ultimately derailing the training
dynamics. To validate our findings, we introduce a minimal modification to the
flash attention that mitigates the bias in rounding errors. This simple change
stabilizes the training process, confirming our analysis and offering a
practical solution to this persistent problem.