Softpick : Pas de puits d'attention, pas d'activations massives avec Softmax rectifié

papers.abstract

Nous présentons softpick, un remplacement direct et rectifié, non sommé à un, pour le softmax dans les mécanismes d'attention des transformers, qui élimine les puits d'attention et les activations massives. Nos expériences avec des modèles de 340 millions de paramètres démontrent que softpick maintient une performance équivalente à celle du softmax sur des benchmarks standards tout en atteignant un taux de puits de 0 %. Le transformer utilisant softpick produit des états cachés avec une kurtosis significativement plus faible (340 contre 33 510) et génère des cartes d'attention éparses (46,97 % de sparsité). Les modèles utilisant softpick surpassent systématiquement ceux utilisant softmax lorsqu'ils sont quantifiés, avec des avantages particulièrement marqués aux précisions de bits plus faibles. Notre analyse et discussion montrent comment softpick a le potentiel d'ouvrir de nouvelles possibilités pour la quantification, l'entraînement en basse précision, l'optimisation de la sparsité, l'élagage et l'interprétabilité. Notre code est disponible à l'adresse https://github.com/zaydzuhri/softpick-attention.

English

We introduce softpick, a rectified, not sum-to-one, drop-in replacement for softmax in transformer attention mechanisms that eliminates attention sink and massive activations. Our experiments with 340M parameter models demonstrate that softpick maintains performance parity with softmax on standard benchmarks while achieving 0% sink rate. The softpick transformer produces hidden states with significantly lower kurtosis (340 vs 33,510) and creates sparse attention maps (46.97% sparsity). Models using softpick consistently outperform softmax when quantized, with particularly pronounced advantages at lower bit precisions. Our analysis and discussion shows how softpick has the potential to open new possibilities for quantization, low-precision training, sparsity optimization, pruning, and interpretability. Our code is available at https://github.com/zaydzuhri/softpick-attention.

Softpick : Pas de puits d'attention, pas d'activations massives avec Softmax rectifié

Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

papers.abstract

Support