Sessa: Atenção Seletiva por Espaço de Estados

Resumo

A modelagem moderna de sequências é dominada por duas famílias: os Transformers, cuja auto-atenção pode acessar elementos arbitrários da sequência visível, e os modelos de espaço de estados estruturados, que propagam informações por meio de um estado recorrente explícito. Esses mecanismos enfrentam limitações diferentes em contextos longos: quando a atenção é difusa, a influência de tokens individuais é diluída ao longo do suporte efetivo, enquanto a propagação do estado recorrente pode perder sensibilidade de longo alcance, a menos que a informação seja ativamente preservada. Como resultado, ambos os mecanismos enfrentam desafios para preservar e recuperar seletivamente informações em contextos longos. Propomos Sessa, um decodificador que coloca a atenção dentro de um caminho de realimentação recorrente. Isso cria muitos caminhos baseados em atenção através dos quais tokens passados podem influenciar estados futuros, em vez de depender de uma única leitura de atenção ou de uma única cadeia recorrente. Provamos que, sob premissas explícitas e regimes equivalentes, Sessa admite caudas de memória de lei de potência O(ℓ^{-β}) para 0 < β < 1, com decaimento mais lento do que nos baselines correspondentes de Transformer e estilo Mamba. Além disso, apresentamos uma construção explícita que alcança essa taxa de lei de potência. Sob as mesmas premissas, Sessa é a única classe de modelo entre as consideradas que realiza recuperação seletiva flexível, incluindo perfis cuja influência não decai com a distância. Consistente com esta vantagem teórica, em experimentos equivalentes, Sessa alcança o desempenho mais forte em benchmarks de contexto longo, mantendo-se competitivo com os baselines de Transformer e estilo Mamba na modelagem de linguagem de contexto curto.

English

Modern sequence modeling is dominated by two families: Transformers, whose self-attention can access arbitrary elements of the visible sequence, and structured state-space models, which propagate information through an explicit recurrent state. These mechanisms face different limitations on long contexts: when attention is diffuse, the influence of individual tokens is diluted across the effective support, while recurrent state propagation can lose long-range sensitivity unless information is actively preserved. As a result, both mechanisms face challenges in preserving and selectively retrieving information over long contexts. We propose Sessa, a decoder that places attention inside a recurrent feedback path. This creates many attention-based paths through which past tokens can influence future states, rather than relying on a single attention read or a single recurrent chain. We prove that, under explicit assumptions and matched regimes, Sessa admits power-law memory tails O(ell^{-β}) for 0 < β< 1, with slower decay than in the corresponding Transformer and Mamba-style baselines. We further give an explicit construction that achieves this power-law rate. Under the same assumptions, Sessa is the only model class among those considered that realizes flexible selective retrieval, including profiles whose influence does not decay with distance. Consistent with this theoretical advantage, across matched experiments, Sessa achieves the strongest performance on long-context benchmarks while remaining competitive with Transformer and Mamba-style baselines on short-context language modeling.

Sessa: Atenção Seletiva por Espaço de Estados

Sessa: Selective State Space Attention

Resumo

Support