Los Sumideros de Atención Son Demostrablemente Necesarios en Transformadores Softmax: Evidencia de Tareas Condicionadas por Disparadores

Resumen

Los transformadores a menudo exhiben un sumidero de atención: la masa de probabilidad se concentra en una posición fija y ajena al contenido. Demostramos que calcular un comportamiento simple condicionado a un disparador induce necesariamente un sumidero en los modelos de auto-atención con softmax. Nuestros resultados formalizan una intuición familiar: la normalización sobre un símplex de probabilidad debe forzar a la atención a colapsar sobre un ancla estable para realizar un estado por defecto (por ejemplo, cuando el modelo necesita ignorar la entrada). Instanciamos esto con una tarea concreta: cuando aparece un token disparador designado, el modelo debe devolver el promedio de todas las representaciones de tokens precedentes, y en caso contrario, generar un cero; una tarea que refleja la funcionalidad de las cabezas de atención en modelos reales (Barbero et al., 2025; Guo et al., 2024). También demostramos que la atención con ReLU no normalizada puede resolver la misma tarea sin ningún sumidero, confirmando que la restricción de normalización es el impulsor fundamental del comportamiento de sumidero. Los experimentos validan nuestras predicciones y demuestran que se extienden más allá del escenario analizado teóricamente: los modelos con softmax desarrollan fuertes sumideros, mientras que la atención con ReLU los elimina tanto en variantes de cabeza única como de múltiples cabezas.

English

Transformers often display an attention sink: probability mass concentrates on a fixed, content-agnostic position. We prove that computing a simple trigger-conditional behavior necessarily induces a sink in softmax self-attention models. Our results formalize a familiar intuition: normalization over a probability simplex must force attention to collapse onto a stable anchor to realize a default state (e.g., when the model needs to ignore the input). We instantiate this with a concrete task: when a designated trigger token appears, the model must return the average of all preceding token representations, and otherwise output zero, a task which mirrors the functionality of attention heads in the wild (Barbero et al., 2025; Guo et al., 2024). We also prove that non-normalized ReLU attention can solve the same task without any sink, confirming that the normalization constraint is the fundamental driver of sink behavior. Experiments validate our predictions and demonstrate they extend beyond the theoretically analyzed setting: softmax models develop strong sinks while ReLU attention eliminates them in both single-head and multi-head variants.

Los Sumideros de Atención Son Demostrablemente Necesarios en Transformadores Softmax: Evidencia de Tareas Condicionadas por Disparadores

Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

Resumen

Support