Softpick: Nessun Sink di Attenzione, Nessuna Attivazione Massiccia con Softmax Rettificata

Abstract

Introduciamo softpick, una sostituzione diretta e rettificata, non a somma unitaria, per la funzione softmax nei meccanismi di attenzione dei transformer, che elimina i fenomeni di "attention sink" e le attivazioni massicce. I nostri esperimenti con modelli da 340 milioni di parametri dimostrano che softpick mantiene una performance equivalente a quella di softmax sui benchmark standard, raggiungendo un tasso di sink pari allo 0%. Il transformer con softpick produce stati nascosti con una curtosi significativamente inferiore (340 vs 33.510) e genera mappe di attenzione sparse (46,97% di sparsità). I modelli che utilizzano softpick superano costantemente quelli con softmax quando quantizzati, con vantaggi particolarmente evidenti a precisioni di bit inferiori. La nostra analisi e discussione mostra come softpick abbia il potenziale di aprire nuove possibilità per la quantizzazione, l'addestramento a bassa precisione, l'ottimizzazione della sparsità, il pruning e l'interpretabilità. Il nostro codice è disponibile all'indirizzo https://github.com/zaydzuhri/softpick-attention.

English

We introduce softpick, a rectified, not sum-to-one, drop-in replacement for softmax in transformer attention mechanisms that eliminates attention sink and massive activations. Our experiments with 340M parameter models demonstrate that softpick maintains performance parity with softmax on standard benchmarks while achieving 0% sink rate. The softpick transformer produces hidden states with significantly lower kurtosis (340 vs 33,510) and creates sparse attention maps (46.97% sparsity). Models using softpick consistently outperform softmax when quantized, with particularly pronounced advantages at lower bit precisions. Our analysis and discussion shows how softpick has the potential to open new possibilities for quantization, low-precision training, sparsity optimization, pruning, and interpretability. Our code is available at https://github.com/zaydzuhri/softpick-attention.

Softpick: Nessun Sink di Attenzione, Nessuna Attivazione Massiccia con Softmax Rettificata

Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

Abstract

Support