Softpick : Pas de puits d'attention, pas d'activations massives avec Softmax rectifié
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax
April 29, 2025
Auteurs: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji
cs.AI
Résumé
Nous présentons softpick, un remplacement direct et rectifié, non sommé à un, pour le softmax dans les mécanismes d'attention des transformers, qui élimine les puits d'attention et les activations massives. Nos expériences avec des modèles de 340 millions de paramètres démontrent que softpick maintient une performance équivalente à celle du softmax sur des benchmarks standards tout en atteignant un taux de puits de 0 %. Le transformer utilisant softpick produit des états cachés avec une kurtosis significativement plus faible (340 contre 33 510) et génère des cartes d'attention éparses (46,97 % de sparsité). Les modèles utilisant softpick surpassent systématiquement ceux utilisant softmax lorsqu'ils sont quantifiés, avec des avantages particulièrement marqués aux précisions de bits plus faibles. Notre analyse et discussion montrent comment softpick a le potentiel d'ouvrir de nouvelles possibilités pour la quantification, l'entraînement en basse précision, l'optimisation de la sparsité, l'élagage et l'interprétabilité. Notre code est disponible à l'adresse https://github.com/zaydzuhri/softpick-attention.
English
We introduce softpick, a rectified, not sum-to-one, drop-in replacement for
softmax in transformer attention mechanisms that eliminates attention sink and
massive activations. Our experiments with 340M parameter models demonstrate
that softpick maintains performance parity with softmax on standard benchmarks
while achieving 0% sink rate. The softpick transformer produces hidden states
with significantly lower kurtosis (340 vs 33,510) and creates sparse attention
maps (46.97% sparsity). Models using softpick consistently outperform softmax
when quantized, with particularly pronounced advantages at lower bit
precisions. Our analysis and discussion shows how softpick has the potential to
open new possibilities for quantization, low-precision training, sparsity
optimization, pruning, and interpretability. Our code is available at
https://github.com/zaydzuhri/softpick-attention.