Sessa: Atención Selectiva de Espacios de Estados

Resumen

La modelización moderna de secuencias está dominada por dos familias: los Transformers, cuya autoatención puede acceder a elementos arbitrarios de la secuencia visible, y los modelos de espacio de estados estructurados, que propagan información a través de un estado recurrente explícito. Estos mecanismos enfrentan diferentes limitaciones en contextos largos: cuando la atención es difusa, la influencia de tokens individuales se diluye a lo largo del soporte efectivo, mientras que la propagación del estado recurrente puede perder sensibilidad de largo alcance a menos que la información se preserve activamente. Como resultado, ambos mecanismos enfrentan desafíos para preservar y recuperar selectivamente información en contextos largos. Proponemos Sessa, un decodificador que sitúa la atención dentro de una trayectoria de retroalimentación recurrente. Esto crea múltiples trayectorias basadas en atención a través de las cuales los tokens pasados pueden influir en los estados futuros, en lugar de depender de una única lectura de atención o de una única cadena recurrente. Demostramos que, bajo supuestos explícitos y regímenes equivalentes, Sessa admite colas de memoria de ley de potencia O(ℓ^{-β}) para 0 < β < 1, con una decadencia más lenta que en las líneas de base correspondientes de tipo Transformer y Mamba. Además, proporcionamos una construcción explícita que alcanza esta tasa de ley de potencia. Bajo los mismos supuestos, Sessa es la única clase de modelo entre las consideradas que realiza una recuperación selectiva flexible, incluyendo perfiles cuya influencia no decae con la distancia. De acuerdo con esta ventaja teórica, en experimentos equivalentes, Sessa logra el rendimiento más sólido en benchmarks de contexto largo, manteniéndose competitivo con las líneas de base de tipo Transformer y Mamba en el modelado de lenguaje de contexto corto.

English

Modern sequence modeling is dominated by two families: Transformers, whose self-attention can access arbitrary elements of the visible sequence, and structured state-space models, which propagate information through an explicit recurrent state. These mechanisms face different limitations on long contexts: when attention is diffuse, the influence of individual tokens is diluted across the effective support, while recurrent state propagation can lose long-range sensitivity unless information is actively preserved. As a result, both mechanisms face challenges in preserving and selectively retrieving information over long contexts. We propose Sessa, a decoder that places attention inside a recurrent feedback path. This creates many attention-based paths through which past tokens can influence future states, rather than relying on a single attention read or a single recurrent chain. We prove that, under explicit assumptions and matched regimes, Sessa admits power-law memory tails O(ell^{-β}) for 0 < β< 1, with slower decay than in the corresponding Transformer and Mamba-style baselines. We further give an explicit construction that achieves this power-law rate. Under the same assumptions, Sessa is the only model class among those considered that realizes flexible selective retrieval, including profiles whose influence does not decay with distance. Consistent with this theoretical advantage, across matched experiments, Sessa achieves the strongest performance on long-context benchmarks while remaining competitive with Transformer and Mamba-style baselines on short-context language modeling.

Sessa: Atención Selectiva de Espacios de Estados

Sessa: Selective State Space Attention

Resumen

Support