Адамас: Разреженное внимание Адамара для эффективного вывода в задачах с длинным контекстом
Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference
October 21, 2025
Авторы: Siyuan Yan, Guo-Qing Jiang, Yuchen Zhang, Xiaoxing Ma, Ran Zhu, Chun Cao, Jingwei Xu
cs.AI
Аннотация
Крупные языковые модели (LLM) теперь поддерживают контекстные окна объемом в сотни тысяч и миллионы токенов, что открывает возможности для таких приложений, как суммаризация длинных документов, крупномасштабный синтез кода, вопросно-ответные системы по множеству документов и устойчивый многотурный диалог. Однако такие расширенные контексты усугубляют квадратичную стоимость самовнимания, приводя к значительным задержкам при авторегрессионном декодировании. Существующие методы разреженного внимания снижают эти затраты, но опираются на эвристические паттерны, которые плохо справляются с recall критически важных пар ключ-значение (KV) для каждого запроса, что ведет к снижению точности. Мы представляем Adamas — легковесный, но высокоточный механизм разреженного внимания, разработанный для длинноконтекстного вывода. Adamas применяет преобразование Адамара, бакетизацию и 2-битное сжатие для создания компактных представлений, а также использует оценку манхэттенского расстояния для эффективного выбора top-k. Эксперименты показывают, что Adamas достигает точности полного внимания при бюджете всего в 64 токена, демонстрирует почти безпотерьную производительность при 128 токенах и поддерживает до 8-кратно более высокую разреженность по сравнению с предыдущими передовыми методами (SOTA), обеспечивая при этом до 4,4-кратного ускорения самовнимания и 1,5-кратного сквозного ускорения на последовательностях длиной 32K. Примечательно, что Adamas достигает сравнимой или даже более низкой перплексии, чем полное внимание, что подчеркивает его эффективность в сохранении точности при агрессивной разреженности.
English
Large language models (LLMs) now support context windows of hundreds of
thousands to millions of tokens, enabling applications such as long-document
summarization, large-scale code synthesis, multi-document question answering
and persistent multi-turn dialogue. However, such extended contexts exacerbate
the quadratic cost of self-attention, leading to severe latency in
autoregressive decoding. Existing sparse attention methods alleviate these
costs but rely on heuristic patterns that struggle to recall critical key-value
(KV) pairs for each query, resulting in accuracy degradation. We introduce
Adamas, a lightweight yet highly accurate sparse attention mechanism designed
for long-context inference. Adamas applies the Hadamard transform,
bucketization and 2-bit compression to produce compact representations, and
leverages Manhattan-distance estimation for efficient top-k selections.
Experiments show that Adamas matches the accuracy of full attention with only a
64-token budget, achieves near-lossless performance at 128, and supports up to
8x higher sparsity than prior state-of-the-art (SOTA) methods while delivering
up to 4.4x self-attention and 1.5x end-to-end speedups on 32K-length sequences.
Remarkably, Adamas attains comparable or even lower perplexity than full
attention, underscoring its effectiveness in maintaining accuracy under
aggressive sparsity.