Adamas: Atención Dispersa de Hadamard para una Inferencia Eficiente en Contextos Largos

Resumen

Los grandes modelos de lenguaje (LLM) admiten actualmente ventanas de contexto de cientos de miles a millones de tokens, lo que permite aplicaciones como la resumen de documentos extensos, la síntesis de código a gran escala, la respuesta a preguntas sobre múltiples documentos y el diálogo multiturno persistente. Sin embargo, estos contextos extendidos exacerban el costo cuadrático de la autoatención, generando una latencia severa en la decodificación autoregresiva. Los métodos existentes de atención dispersa alivian estos costos, pero se basan en patrones heurísticos que tienen dificultades para recuperar pares clave-valor (KV) críticos para cada consulta, lo que resulta en una degradación de la precisión. Presentamos Adamas, un mecanismo de atención dispersa ligero pero altamente preciso diseñado para inferencia de contexto largo. Adamas aplica la transformada de Hadamard, la segmentación en contenedores y la compresión de 2 bits para producir representaciones compactas, y aprovecha la estimación de distancia Manhattan para selecciones eficientes de top-k. Los experimentos muestran que Adamas iguala la precisión de la atención completa con un presupuesto de solo 64 tokens, logra un rendimiento casi sin pérdidas con 128 tokens, y admite hasta 8 veces más dispersión que los métodos anteriores de vanguardia (SOTA), mientras ofrece aceleraciones de hasta 4.4x en autoatención y 1.5x de extremo a extremo en secuencias de 32K de longitud. Notablemente, Adamas alcanza una perplejidad comparable o incluso menor que la atención completa, subrayando su eficacia para mantener la precisión bajo una dispersión agresiva.

English

Large language models (LLMs) now support context windows of hundreds of thousands to millions of tokens, enabling applications such as long-document summarization, large-scale code synthesis, multi-document question answering and persistent multi-turn dialogue. However, such extended contexts exacerbate the quadratic cost of self-attention, leading to severe latency in autoregressive decoding. Existing sparse attention methods alleviate these costs but rely on heuristic patterns that struggle to recall critical key-value (KV) pairs for each query, resulting in accuracy degradation. We introduce Adamas, a lightweight yet highly accurate sparse attention mechanism designed for long-context inference. Adamas applies the Hadamard transform, bucketization and 2-bit compression to produce compact representations, and leverages Manhattan-distance estimation for efficient top-k selections. Experiments show that Adamas matches the accuracy of full attention with only a 64-token budget, achieves near-lossless performance at 128, and supports up to 8x higher sparsity than prior state-of-the-art (SOTA) methods while delivering up to 4.4x self-attention and 1.5x end-to-end speedups on 32K-length sequences. Remarkably, Adamas attains comparable or even lower perplexity than full attention, underscoring its effectiveness in maintaining accuracy under aggressive sparsity.

Adamas: Atención Dispersa de Hadamard para una Inferencia Eficiente en Contextos Largos

Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference

Resumen

Support