Sessa: Selektive State Space Attention

Zusammenfassung

Die moderne Sequenzmodellierung wird von zwei Modellfamilien dominiertieren: Transformern, deren Self-Attention auf beliebige Elemente der sichtbaren Sequenz zugreifen kann, und strukturierten State-Space-Modellen, die Information durch einen expliziten rekurrenten Zustand propagieren. Diese Mechanismen stoßen bei langen Kontexten auf unterschiedliche Grenzen: Wenn die Aufmerksamkeit diffus ist, wird der Einfluss einzelner Tokens über den effektiven Support verdünnt, während die Propagation rekurrenter Zustände die Sensitivität für große Abstände verlieren kann, sofern Informationen nicht aktiv bewahrt werden. Infolgedessen stehen beide Mechanismen vor Herausforderungen, wenn es darum geht, Informationen über lange Kontexte hinweg zu bewahren und selektiv abzurufen. Wir schlagen Sessa vor, einen Decoder, der die Aufmerksamkeit innerhalb eines rekurrenten Feedback-Pfads platziert. Dies schafft viele aufmerksamkeitsbasierte Pfade, über die vergangene Tokens zukünftige Zustände beeinflussen können, anstatt sich auf einen einzelnen Attention-Lesevorgang oder eine einzelne rekurrente Kette zu verlassen. Wir beweisen, dass Sessa unter expliziten Annahmen und in vergleichbaren Regimen Gedächtnisschwänze nach Potenzgesetz der Form O(ell^{-β}) für 0 < β< 1 zulässt, mit einer langsameren Abklingrate als in den entsprechenden Transformer- und Mamba-artigen Baseline-Modellen. Wir geben weiterhin eine explizite Konstruktion an, die diese Potenzgesetzrate erreicht. Unter denselben Annahmen ist Sessa die einzige Modellklasse unter den betrachteten, die flexiblen, selektiven Abruf realisiert, einschließlich Profilen, deren Einfluss mit der Distanz nicht abklingt. Konsistent mit diesem theoretischen Vorteil erzielt Sessa in vergleichenden Experimenten die stärkste Leistung auf Long-Context-Benchmarks und bleibt wettbewerbsfähig mit Transformer- und Mamba-artigen Baselines bei der Sprachmodellierung mit kurzem Kontext.

English

Modern sequence modeling is dominated by two families: Transformers, whose self-attention can access arbitrary elements of the visible sequence, and structured state-space models, which propagate information through an explicit recurrent state. These mechanisms face different limitations on long contexts: when attention is diffuse, the influence of individual tokens is diluted across the effective support, while recurrent state propagation can lose long-range sensitivity unless information is actively preserved. As a result, both mechanisms face challenges in preserving and selectively retrieving information over long contexts. We propose Sessa, a decoder that places attention inside a recurrent feedback path. This creates many attention-based paths through which past tokens can influence future states, rather than relying on a single attention read or a single recurrent chain. We prove that, under explicit assumptions and matched regimes, Sessa admits power-law memory tails O(ell^{-β}) for 0 < β< 1, with slower decay than in the corresponding Transformer and Mamba-style baselines. We further give an explicit construction that achieves this power-law rate. Under the same assumptions, Sessa is the only model class among those considered that realizes flexible selective retrieval, including profiles whose influence does not decay with distance. Consistent with this theoretical advantage, across matched experiments, Sessa achieves the strongest performance on long-context benchmarks while remaining competitive with Transformer and Mamba-style baselines on short-context language modeling.