HISA: Indexación Jerárquica Eficiente para Atención Dispersa de Grano Fino

Resumen

Los mecanismos de atención dispersa a nivel de token, ejemplificados por DeepSeek Sparse Attention (DSA), logran una selección fina de claves mediante la puntuación de cada token histórico para cada consulta usando un indexador ligero, y luego calculando la atención solo sobre el subconjunto seleccionado. Si bien la atención dispersa subsiguiente escala de manera eficiente, el indexador aún escanea todo el prefijo para cada consulta, introduciendo un cuello de botella por capa de O(L²) que se vuelve prohibitivo a medida que crece la longitud del contexto. Proponemos HISA (Hierarchical Indexed Sparse Attention), un reemplazo directo para el indexador que transforma el proceso de búsqueda de un escaneo plano de tokens en un procedimiento jerárquico de dos etapas. Primero, un filtro grueso a nivel de bloque puntúa representantes agrupados de bloques para podar regiones irrelevantes. Luego, un refinamiento a nivel de token aplica el indexador original solo dentro de los bloques candidatos restantes. HISA preserva el patrón de dispersión top-k a nivel de token exacto requerido por el operador Sparse MLA subsiguiente y no requiere entrenamiento adicional. En benchmarks a nivel de kernel, HISA logra una aceleración de 2 veces con una longitud de contexto de 32K y de 4 veces con 128K. En Needle-in-a-Haystack y LongBench, reemplazamos directamente el indexador en DeepSeek-V3.2 con HISA, sin ningún ajuste fino. HISA se acerca mucho a la calidad original de DSA mientras supera significativamente a los baselines de atención dispersa por bloques. Además, los conjuntos de selección de tokens producidos por HISA y el DSA original exhiben un IoU medio superior al 99%, lo que indica que las ganancias de eficiencia se logran con un impacto prácticamente nulo en la fidelidad de la selección.

English

Token-level sparse attention mechanisms, exemplified by DeepSeek Sparse Attention (DSA), achieve fine-grained key selection by scoring every historical token for each query using a lightweight indexer, and then computing attention only over the selected subset. While the downstream sparse attention scales efficiently, the indexer still scans the entire prefix for every query, introducing an O(L^2) per-layer bottleneck that becomes prohibitive as context length grows. We propose HISA (Hierarchical Indexed Sparse Attention), a drop-in replacement for the indexer that transforms the search process from a flat token scan into a two-stage hierarchical procedure. First, a block-level coarse filter scores pooled block representatives to prune irrelevant regions. Then, a token-level refinement applies the original indexer only within the remaining candidate blocks. HISA preserves the exact token-level top-k sparsity pattern required by the downstream Sparse MLA operator and requires no additional training. On kernel-level benchmarks, HISA achieves a 2times speedup at 32K context length and 4times at 128K. On Needle-in-a-Haystack and LongBench, we directly replace the indexer in DeepSeek-V3.2 with HISA, without any fine-tuning. HISA closely matches the original DSA in quality while significantly outperforming block-sparse baselines. Moreover, the token selection sets produced by HISA and the original DSA exhibit a mean IoU greater than 99%, indicating that the efficiency gains come with virtually no impact on selection fidelity.

HISA: Indexación Jerárquica Eficiente para Atención Dispersa de Grano Fino

HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

Resumen

Support