Sessa: Селективная State Space Attention

Аннотация

Современное моделирование последовательностей представлено двумя основными семействами: Трансформерами, чье механизм самовнимания позволяет обращаться к произвольным элементам видимой последовательности, и структурированными моделями пространства состояний, которые передают информацию через явное рекуррентное состояние. Эти механизмы сталкиваются с различными ограничениями в длинных контекстах: когда внимание является рассеянным, влияние отдельных токенов размывается по эффективной области поддержки, в то время как распространение рекуррентного состояния может терять чувствительность к дальним зависимостям, если информация не сохраняется активно. В результате оба механизма сталкиваются с трудностями в сохранении и избирательном извлечении информации в длинных контекстах. Мы предлагаем Sessa, декодер, который помещает механизм внимания внутрь рекуррентной цепи обратной связи. Это создает множество путей на основе внимания, через которые прошлые токены могут влиять на будущие состояния, вместо того чтобы полагаться на единичное чтение внимания или единичную рекуррентную цепь. Мы доказываем, что при явных предположениях и в сопоставимых режимах Sessa допускает степенные хвосты памяти O(ℓ^{-β}) для 0 < β < 1, с более медленным затуханием, чем у соответствующих базовых моделей на основе Трансформеров и в стиле Mamba. Мы также приводим явную конструкцию, которая достигает этой степенной скорости. При тех же предположениях Sessa является единственным классом моделей среди рассмотренных, который реализует гибкое избирательное извлечение, включая профили, чье влияние не затухает с расстоянием. В соответствии с этим теоретическим преимуществом, в согласованных экспериментах Sessa демонстрирует наилучшую производительность на бенчмарках с длинным контекстом, оставаясь при этом конкурентоспособной с базовыми моделями на основе Трансформеров и в стиле Mamba в задачах языкового моделирования с коротким контекстом.

English

Modern sequence modeling is dominated by two families: Transformers, whose self-attention can access arbitrary elements of the visible sequence, and structured state-space models, which propagate information through an explicit recurrent state. These mechanisms face different limitations on long contexts: when attention is diffuse, the influence of individual tokens is diluted across the effective support, while recurrent state propagation can lose long-range sensitivity unless information is actively preserved. As a result, both mechanisms face challenges in preserving and selectively retrieving information over long contexts. We propose Sessa, a decoder that places attention inside a recurrent feedback path. This creates many attention-based paths through which past tokens can influence future states, rather than relying on a single attention read or a single recurrent chain. We prove that, under explicit assumptions and matched regimes, Sessa admits power-law memory tails O(ell^{-β}) for 0 < β< 1, with slower decay than in the corresponding Transformer and Mamba-style baselines. We further give an explicit construction that achieves this power-law rate. Under the same assumptions, Sessa is the only model class among those considered that realizes flexible selective retrieval, including profiles whose influence does not decay with distance. Consistent with this theoretical advantage, across matched experiments, Sessa achieves the strongest performance on long-context benchmarks while remaining competitive with Transformer and Mamba-style baselines on short-context language modeling.

Sessa: Селективная State Space Attention

Sessa: Selective State Space Attention

Аннотация

Support