Softpick: Nessun Sink di Attenzione, Nessuna Attivazione Massiccia con Softmax Rettificata
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax
April 29, 2025
Autori: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji
cs.AI
Abstract
Introduciamo softpick, una sostituzione diretta e rettificata, non a somma unitaria, per la funzione softmax nei meccanismi di attenzione dei transformer, che elimina i fenomeni di "attention sink" e le attivazioni massicce. I nostri esperimenti con modelli da 340 milioni di parametri dimostrano che softpick mantiene una performance equivalente a quella di softmax sui benchmark standard, raggiungendo un tasso di sink pari allo 0%. Il transformer con softpick produce stati nascosti con una curtosi significativamente inferiore (340 vs 33.510) e genera mappe di attenzione sparse (46,97% di sparsità). I modelli che utilizzano softpick superano costantemente quelli con softmax quando quantizzati, con vantaggi particolarmente evidenti a precisioni di bit inferiori. La nostra analisi e discussione mostra come softpick abbia il potenziale di aprire nuove possibilità per la quantizzazione, l'addestramento a bassa precisione, l'ottimizzazione della sparsità, il pruning e l'interpretabilità. Il nostro codice è disponibile all'indirizzo https://github.com/zaydzuhri/softpick-attention.
English
We introduce softpick, a rectified, not sum-to-one, drop-in replacement for
softmax in transformer attention mechanisms that eliminates attention sink and
massive activations. Our experiments with 340M parameter models demonstrate
that softpick maintains performance parity with softmax on standard benchmarks
while achieving 0% sink rate. The softpick transformer produces hidden states
with significantly lower kurtosis (340 vs 33,510) and creates sparse attention
maps (46.97% sparsity). Models using softpick consistently outperform softmax
when quantized, with particularly pronounced advantages at lower bit
precisions. Our analysis and discussion shows how softpick has the potential to
open new possibilities for quantization, low-precision training, sparsity
optimization, pruning, and interpretability. Our code is available at
https://github.com/zaydzuhri/softpick-attention.