Adamas: Attenzione Sparsa di Hadamard per Inferenza Efficiente in Contesti Lunghi
Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference
October 21, 2025
Autori: Siyuan Yan, Guo-Qing Jiang, Yuchen Zhang, Xiaoxing Ma, Ran Zhu, Chun Cao, Jingwei Xu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) supportano ora finestre contestuali di centinaia di migliaia fino a milioni di token, abilitando applicazioni come la sintesi di codice su larga scala, la risposta a domande su più documenti e il dialogo persistente multi-turn. Tuttavia, questi contesti estesi esasperano il costo quadratico dell'auto-attenzione, causando una latenza severa nella decodifica autoregressiva. I metodi esistenti di attenzione sparsa alleviano questi costi, ma si basano su pattern euristici che faticano a recuperare coppie chiave-valore (KV) critiche per ogni query, risultando in un degrado dell'accuratezza. Introduciamo Adamas, un meccanismo di attenzione sparsa leggero ma altamente accurato, progettato per l'inferenza su contesti lunghi. Adamas applica la trasformata di Hadamard, la suddivisione in bucket e una compressione a 2 bit per produrre rappresentazioni compatte, e sfrutta la stima della distanza di Manhattan per selezioni top-k efficienti. Gli esperimenti mostrano che Adamas eguaglia l'accuratezza dell'attenzione completa con un budget di soli 64 token, raggiunge prestazioni quasi senza perdite a 128 token e supporta una sparsità fino a 8 volte superiore rispetto ai precedenti metodi all'avanguardia (SOTA), offrendo accelerazioni fino a 4,4x nell'auto-attenzione e 1,5x end-to-end su sequenze di lunghezza 32K. Notevolmente, Adamas ottiene una perplexità comparabile o persino inferiore all'attenzione completa, sottolineando la sua efficacia nel mantenere l'accuratezza sotto condizioni di sparsità aggressiva.
English
Large language models (LLMs) now support context windows of hundreds of
thousands to millions of tokens, enabling applications such as long-document
summarization, large-scale code synthesis, multi-document question answering
and persistent multi-turn dialogue. However, such extended contexts exacerbate
the quadratic cost of self-attention, leading to severe latency in
autoregressive decoding. Existing sparse attention methods alleviate these
costs but rely on heuristic patterns that struggle to recall critical key-value
(KV) pairs for each query, resulting in accuracy degradation. We introduce
Adamas, a lightweight yet highly accurate sparse attention mechanism designed
for long-context inference. Adamas applies the Hadamard transform,
bucketization and 2-bit compression to produce compact representations, and
leverages Manhattan-distance estimation for efficient top-k selections.
Experiments show that Adamas matches the accuracy of full attention with only a
64-token budget, achieves near-lossless performance at 128, and supports up to
8x higher sparsity than prior state-of-the-art (SOTA) methods while delivering
up to 4.4x self-attention and 1.5x end-to-end speedups on 32K-length sequences.
Remarkably, Adamas attains comparable or even lower perplexity than full
attention, underscoring its effectiveness in maintaining accuracy under
aggressive sparsity.