Attenzione Sparsa su Token: Inferenza Efficiente in Contesti Lunghi con Selezione Intervallata di Token

Abstract

La complessità quadratica dell'attenzione rimane il principale collo di bottiglia nell'inferenza a contesto lungo per i grandi modelli linguistici. I metodi di accelerazione precedenti sparsificano la mappa di attenzione con pattern strutturati o eliminano permanentemente i token a livelli specifici, approcci che possono trattenere token irrilevanti o basarsi su decisioni precoci irreversibili nonostante la dinamica per-livello e per-testa dell'importanza dei token. In questo articolo proponiamo Token Sparse Attention, un meccanismo di sparsificazione leggero e dinamico a livello di token che comprime Q, K, V per testa in un insieme ridotto di token durante l'attenzione, per poi decomprimere l'output alla sequenza originale, consentendo alle informazioni dei token di essere riconsiderate nei livelli successivi. Inoltre, Token Sparse Attention introduce un nuovo punto di progettazione all'intersezione tra selezione dei token e attenzione sparsa. Il nostro approccio è completamente compatibile con le implementazioni di attenzione densa, inclusa Flash Attention, e può essere composto in modo trasparente con kernel di attenzione sparsa esistenti. I risultati sperimentali dimostrano che Token Sparse Attention migliora costantemente il trade-off accuratezza-latenza, raggiungendo un speedup dell'attenzione fino a 3.2× per contesti di 128K con un degrado di accuratezza inferiore all'1%. Questi risultati mostrano che la sparsificazione dinamica e intervallata a livello di token è una strategia complementare ed efficace per l'inferenza scalabile a contesto lungo.

English

The quadratic complexity of attention remains the central bottleneck in long-context inference for large language models. Prior acceleration methods either sparsify the attention map with structured patterns or permanently evict tokens at specific layers, which can retain irrelevant tokens or rely on irreversible early decisions despite the layer-/head-wise dynamics of token importance. In this paper, we propose Token Sparse Attention, a lightweight and dynamic token-level sparsification mechanism that compresses per-head Q, K, V to a reduced token set during attention and then decompresses the output back to the original sequence, enabling token information to be reconsidered in subsequent layers. Furthermore, Token Sparse Attention exposes a new design point at the intersection of token selection and sparse attention. Our approach is fully compatible with dense attention implementations, including Flash Attention, and can be seamlessly composed with existing sparse attention kernels. Experimental results show that Token Sparse Attention consistently improves accuracy-latency trade-off, achieving up to times3.23 attention speedup at 128K context with less than 1% accuracy degradation. These results demonstrate that dynamic and interleaved token-level sparsification is a complementary and effective strategy for scalable long-context inference.

Attenzione Sparsa su Token: Inferenza Efficiente in Contesti Lunghi con Selezione Intervallata di Token

Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

Abstract

Support