Adamas: Atenção Esparsa de Hadamard para Inferência Eficiente em Contextos Longos
Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference
October 21, 2025
Autores: Siyuan Yan, Guo-Qing Jiang, Yuchen Zhang, Xiaoxing Ma, Ran Zhu, Chun Cao, Jingwei Xu
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) suportam atualmente janelas de contexto de centenas de milhares a milhões de *tokens*, permitindo aplicações como sumarização de documentos longos, síntese de código em larga escala, resposta a perguntas sobre múltiplos documentos e diálogo persistente multi-turn. No entanto, estes contextos estendidos exacerbam o custo quadrático da auto-atenção, levando a uma latência severa na descodificação autoregressiva. Os métodos existentes de atenção esparsa aliviam estes custos, mas dependem de padrões heurísticos que têm dificuldade em recordar os pares chave-valor (KV) críticos para cada consulta, resultando em degradação da precisão. Apresentamos o Adamas, um mecanismo de atenção esparsa leve mas altamente preciso, concebido para inferência de contexto longo. O Adamas aplica a transformada de Hadamard, a *bucketization* e a compressão de 2 bits para produzir representações compactas, e aproveita a estimativa da distância de Manhattan para seleções eficientes de *top-k*. Experiências mostram que o Adamas iguala a precisão da atenção completa com um orçamento de apenas 64 *tokens*, alcança um desempenho quase sem perdas a 128, e suporta uma esparsidade até 8x superior aos métodos anteriores do estado da arte (SOTA), enquanto proporciona acelerações de até 4,4x na auto-atenção e 1,5x *end-to-end* em sequências de 32K de comprimento. Notavelmente, o Adamas atinge uma perplexidade comparável ou mesmo inferior à da atenção completa, sublinhando a sua eficácia em manter a precisão sob esparsidade agressiva.
English
Large language models (LLMs) now support context windows of hundreds of
thousands to millions of tokens, enabling applications such as long-document
summarization, large-scale code synthesis, multi-document question answering
and persistent multi-turn dialogue. However, such extended contexts exacerbate
the quadratic cost of self-attention, leading to severe latency in
autoregressive decoding. Existing sparse attention methods alleviate these
costs but rely on heuristic patterns that struggle to recall critical key-value
(KV) pairs for each query, resulting in accuracy degradation. We introduce
Adamas, a lightweight yet highly accurate sparse attention mechanism designed
for long-context inference. Adamas applies the Hadamard transform,
bucketization and 2-bit compression to produce compact representations, and
leverages Manhattan-distance estimation for efficient top-k selections.
Experiments show that Adamas matches the accuracy of full attention with only a
64-token budget, achieves near-lossless performance at 128, and supports up to
8x higher sparsity than prior state-of-the-art (SOTA) methods while delivering
up to 4.4x self-attention and 1.5x end-to-end speedups on 32K-length sequences.
Remarkably, Adamas attains comparable or even lower perplexity than full
attention, underscoring its effectiveness in maintaining accuracy under
aggressive sparsity.