ChatPaper.aiChatPaper

Softpick: Sin sumidero de atención, ni activaciones masivas con Softmax rectificada

Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

April 29, 2025
Autores: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji
cs.AI

Resumen

Presentamos softpick, un reemplazo directo y rectificado, no sumado a uno, para softmax en los mecanismos de atención de transformadores que elimina los sumideros de atención y las activaciones masivas. Nuestros experimentos con modelos de 340M de parámetros demuestran que softpick mantiene un rendimiento equivalente al de softmax en benchmarks estándar mientras logra una tasa de sumidero del 0%. El transformador con softpick produce estados ocultos con una curtosis significativamente menor (340 vs 33,510) y genera mapas de atención dispersos (46.97% de dispersión). Los modelos que utilizan softpick superan consistentemente a los que usan softmax cuando se cuantizan, con ventajas particularmente marcadas en precisiones de menor cantidad de bits. Nuestro análisis y discusión muestran cómo softpick tiene el potencial de abrir nuevas posibilidades para la cuantización, el entrenamiento de baja precisión, la optimización de dispersión, la poda y la interpretabilidad. Nuestro código está disponible en https://github.com/zaydzuhri/softpick-attention.
English
We introduce softpick, a rectified, not sum-to-one, drop-in replacement for softmax in transformer attention mechanisms that eliminates attention sink and massive activations. Our experiments with 340M parameter models demonstrate that softpick maintains performance parity with softmax on standard benchmarks while achieving 0% sink rate. The softpick transformer produces hidden states with significantly lower kurtosis (340 vs 33,510) and creates sparse attention maps (46.97% sparsity). Models using softpick consistently outperform softmax when quantized, with particularly pronounced advantages at lower bit precisions. Our analysis and discussion shows how softpick has the potential to open new possibilities for quantization, low-precision training, sparsity optimization, pruning, and interpretability. Our code is available at https://github.com/zaydzuhri/softpick-attention.
PDF315May 4, 2025