Adamas : Attention parcimonieuse de Hadamard pour l'inférence efficace en contexte long
Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference
October 21, 2025
papers.authors: Siyuan Yan, Guo-Qing Jiang, Yuchen Zhang, Xiaoxing Ma, Ran Zhu, Chun Cao, Jingwei Xu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) prennent désormais en charge des fenêtres de contexte de centaines de milliers à des millions de tokens, permettant des applications telles que la synthèse de code à grande échelle, la réponse à des questions multi-documents et le dialogue persistant multi-tours. Cependant, ces contextes étendus exacerbent le coût quadratique de l'auto-attention, entraînant une latence sévère dans le décodage autorégressif. Les méthodes d'attention éparse existantes atténuent ces coûts mais reposent sur des motifs heuristiques qui peinent à rappeler les paires clé-valeur (KV) critiques pour chaque requête, ce qui dégrade la précision. Nous présentons Adamas, un mécanisme d'attention éparse léger mais très précis conçu pour l'inférence en contexte long. Adamas applique la transformée de Hadamard, une bucketisation et une compression 2 bits pour produire des représentations compactes, et exploite l'estimation par distance de Manhattan pour des sélections top-k efficaces. Les expériences montrent qu'Adamas égalise la précision de l'attention complète avec un budget de seulement 64 tokens, atteint des performances quasi sans perte à 128 tokens, et supporte une sparsité jusqu'à 8 fois supérieure aux méthodes état de l'art (SOTA) précédentes tout en offrant des accélérations de l'auto-attention jusqu'à 4,4x et de bout en bout jusqu'à 1,5x sur des séquences de longueur 32K. Fait remarquable, Adamas obtient une perplexité comparable voire inférieure à l'attention complète, soulignant son efficacité à maintenir la précision sous une sparsité agressive.
English
Large language models (LLMs) now support context windows of hundreds of
thousands to millions of tokens, enabling applications such as long-document
summarization, large-scale code synthesis, multi-document question answering
and persistent multi-turn dialogue. However, such extended contexts exacerbate
the quadratic cost of self-attention, leading to severe latency in
autoregressive decoding. Existing sparse attention methods alleviate these
costs but rely on heuristic patterns that struggle to recall critical key-value
(KV) pairs for each query, resulting in accuracy degradation. We introduce
Adamas, a lightweight yet highly accurate sparse attention mechanism designed
for long-context inference. Adamas applies the Hadamard transform,
bucketization and 2-bit compression to produce compact representations, and
leverages Manhattan-distance estimation for efficient top-k selections.
Experiments show that Adamas matches the accuracy of full attention with only a
64-token budget, achieves near-lossless performance at 128, and supports up to
8x higher sparsity than prior state-of-the-art (SOTA) methods while delivering
up to 4.4x self-attention and 1.5x end-to-end speedups on 32K-length sequences.
Remarkably, Adamas attains comparable or even lower perplexity than full
attention, underscoring its effectiveness in maintaining accuracy under
aggressive sparsity.