Sessa : Attention par Espace d'États Sélectif

Résumé

La modélisation séquentielle moderne est dominée par deux familles : les Transformers, dont l'auto-attention peut accéder à des éléments arbitraires de la séquence visible, et les modèles à espace d'états structurés, qui propagent l'information via un état récurrent explicite. Ces mécanismes présentent des limitations différentes sur les contextes longs : lorsque l'attention est diffuse, l'influence des tokens individuels est diluée sur le support effectif, tandis que la propagation de l'état récurrent peut perdre la sensibilité à longue portée à moins que l'information ne soit activement préservée. Par conséquent, les deux mécanismes rencontrent des difficultés à préserver et à récupérer sélectivement l'information sur des contextes étendus. Nous proposons Sessa, un décodeur qui place l'attention dans une boucle de rétroaction récurrente. Cela crée de nombreux chemins basés sur l'attention à travers lesquels les tokens passés peuvent influencer les états futurs, plutôt que de dépendre d'une seule lecture attentionnelle ou d'une seule chaîne récurrente. Nous démontrons que, sous des hypothèses explicites et des régimes comparés, Sessa admet des queues de mémoire à loi de puissance O(ℓ^{-β}) pour 0 < β < 1, avec une décroissance plus lente que dans les modèles de référence Transformer et de type Mamba correspondants. Nous fournissons en outre une construction explicite qui atteint ce taux de loi de puissance. Sous les mêmes hypothèses, Sessa est la seule classe de modèle considérée qui réalise une récupération sélective flexible, incluant des profils dont l'influence ne décroît pas avec la distance. Conformément à cet avantage théorique, dans des expériences comparables, Sessa obtient les performances les plus solides sur les benchmarks à contexte long tout en restant compétitif avec les modèles de référence Transformer et de type Mamba sur la modélisation du langage à contexte court.

English

Modern sequence modeling is dominated by two families: Transformers, whose self-attention can access arbitrary elements of the visible sequence, and structured state-space models, which propagate information through an explicit recurrent state. These mechanisms face different limitations on long contexts: when attention is diffuse, the influence of individual tokens is diluted across the effective support, while recurrent state propagation can lose long-range sensitivity unless information is actively preserved. As a result, both mechanisms face challenges in preserving and selectively retrieving information over long contexts. We propose Sessa, a decoder that places attention inside a recurrent feedback path. This creates many attention-based paths through which past tokens can influence future states, rather than relying on a single attention read or a single recurrent chain. We prove that, under explicit assumptions and matched regimes, Sessa admits power-law memory tails O(ell^{-β}) for 0 < β< 1, with slower decay than in the corresponding Transformer and Mamba-style baselines. We further give an explicit construction that achieves this power-law rate. Under the same assumptions, Sessa is the only model class among those considered that realizes flexible selective retrieval, including profiles whose influence does not decay with distance. Consistent with this theoretical advantage, across matched experiments, Sessa achieves the strongest performance on long-context benchmarks while remaining competitive with Transformer and Mamba-style baselines on short-context language modeling.

Sessa : Attention par Espace d'États Sélectif

Sessa: Selective State Space Attention

Résumé

Support