Adamas: Hadamard-Sparse-Attention für effiziente Inferenz in langen Kontexten
Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference
October 21, 2025
papers.authors: Siyuan Yan, Guo-Qing Jiang, Yuchen Zhang, Xiaoxing Ma, Ran Zhu, Chun Cao, Jingwei Xu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) unterstützen mittlerweile Kontextfenster von mehreren hunderttausend bis zu Millionen von Tokens und ermöglichen Anwendungen wie die Zusammenfassung langer Dokumente, die großflächige Codesynthese, die Beantwortung von Fragen über mehrere Dokumente hinweg und persistente Mehrfachdialoge. Solche erweiterten Kontexte verschärfen jedoch die quadratischen Kosten der Self-Attention, was zu erheblicher Latenz beim autoregressiven Decoding führt. Bestehende Sparse-Attention-Methoden mildern diese Kosten, basieren aber auf heuristischen Mustern, die Schwierigkeiten haben, kritische Key-Value-Paare (KV-Paare) für jede Abfrage abzurufen, was zu Genauigkeitsverlusten führt. Wir stellen Adamas vor, einen leichtgewichtigen yet hocheffizienten Sparse-Attention-Mechanismus für Inferenzen mit langem Kontext. Adamas wendet die Hadamard-Transformation, Bucketisierung und 2-Bit-Kompression an, um kompakte Repräsentationen zu erzeugen, und nutzt Manhattan-Distanz-Schätzung für effiziente Top-k-Auswahlen. Experimente zeigen, dass Adamas die Genauigkeit der Full Attention mit einem Budget von nur 64 Tokens erreicht, bei 128 Tokens nahezu verlustfreie Leistung erzielt und bis zu 8-fach höhere Sparsität als bisherige State-of-the-Art-Methoden (SOTA) unterstützt, wobei es bei Sequenzen der Länge 32K bis zu 4,4-fache Beschleunigungen bei der Self-Attention und 1,5-fache end-to-end-Beschleunigungen liefert. Bemerkenswerterweise erzielt Adamas vergleichbare oder sogar geringere Perplexität als Full Attention, was seine Wirksamkeit bei der Wahrung der Genauigkeit unter aggressiver Sparsity unterstreicht.
English
Large language models (LLMs) now support context windows of hundreds of
thousands to millions of tokens, enabling applications such as long-document
summarization, large-scale code synthesis, multi-document question answering
and persistent multi-turn dialogue. However, such extended contexts exacerbate
the quadratic cost of self-attention, leading to severe latency in
autoregressive decoding. Existing sparse attention methods alleviate these
costs but rely on heuristic patterns that struggle to recall critical key-value
(KV) pairs for each query, resulting in accuracy degradation. We introduce
Adamas, a lightweight yet highly accurate sparse attention mechanism designed
for long-context inference. Adamas applies the Hadamard transform,
bucketization and 2-bit compression to produce compact representations, and
leverages Manhattan-distance estimation for efficient top-k selections.
Experiments show that Adamas matches the accuracy of full attention with only a
64-token budget, achieves near-lossless performance at 128, and supports up to
8x higher sparsity than prior state-of-the-art (SOTA) methods while delivering
up to 4.4x self-attention and 1.5x end-to-end speedups on 32K-length sequences.
Remarkably, Adamas attains comparable or even lower perplexity than full
attention, underscoring its effectiveness in maintaining accuracy under
aggressive sparsity.