Sessa: Attenzione a Stati Selettivi dello Spazio di Stato

Abstract

La modellazione sequenziale moderna è dominata da due famiglie: i Transformer, la cui self-attention può accedere a elementi arbitrari della sequenza visibile, e i modelli strutturati a spazio degli stati, che propagano le informazioni attraverso uno stato ricorrente esplicito. Questi meccanismi presentano limitazioni diverse nei contesti lunghi: quando l'attenzione è diffusa, l'influenza dei singoli token viene diluita attraverso il supporto effettivo, mentre la propagazione dello stato ricorrente può perdere sensibilità a lungo raggio a meno che le informazioni non vengano attivamente preservate. Di conseguenza, entrambi i meccanismi affrontano sfide nel preservare e recuperare selettivamente le informazioni su contesti lunghi. Proponiamo Sessa, un decoder che posiziona l'attenzione all'interno di un percorso di feedback ricorrente. Ciò crea molti percorsi basati sull'attenzione attraverso i quali i token passati possono influenzare gli stati futuri, piuttosto che affidarsi a una singola lettura attentiva o a una singola catena ricorrente. Dimostriamo che, sotto ipotesi esplicite e regimi corrispondenti, Sessa ammette code di memoria a legge di potenza O(ell^{-β}) per 0 < β < 1, con un decadimento più lento rispetto ai corrispondenti baseline di tipo Transformer e Mamba. Forniamo inoltre una costruzione esplicita che raggiunge questo tasso a legge di potenza. Sotto le stesse ipotesi, Sessa è l'unica classe di modello tra quelle considerate che realizza un recupero selettivo flessibile, inclusi profili la cui influenza non decade con la distanza. Coerentemente con questo vantaggio teorico, in esperimenti comparabili, Sessa raggiunge le prestazioni più solide su benchmark di contesto lungo, rimanendo allo stesso tempo competitivo con i baseline di tipo Transformer e Mamba sulla modellazione linguistica a contesto breve.

English

Modern sequence modeling is dominated by two families: Transformers, whose self-attention can access arbitrary elements of the visible sequence, and structured state-space models, which propagate information through an explicit recurrent state. These mechanisms face different limitations on long contexts: when attention is diffuse, the influence of individual tokens is diluted across the effective support, while recurrent state propagation can lose long-range sensitivity unless information is actively preserved. As a result, both mechanisms face challenges in preserving and selectively retrieving information over long contexts. We propose Sessa, a decoder that places attention inside a recurrent feedback path. This creates many attention-based paths through which past tokens can influence future states, rather than relying on a single attention read or a single recurrent chain. We prove that, under explicit assumptions and matched regimes, Sessa admits power-law memory tails O(ell^{-β}) for 0 < β< 1, with slower decay than in the corresponding Transformer and Mamba-style baselines. We further give an explicit construction that achieves this power-law rate. Under the same assumptions, Sessa is the only model class among those considered that realizes flexible selective retrieval, including profiles whose influence does not decay with distance. Consistent with this theoretical advantage, across matched experiments, Sessa achieves the strongest performance on long-context benchmarks while remaining competitive with Transformer and Mamba-style baselines on short-context language modeling.

Sessa: Attenzione a Stati Selettivi dello Spazio di Stato

Sessa: Selective State Space Attention

Abstract

Support