FASA: Atención Dispersa Consciente de la Frecuencia

Resumen

El despliegue de Modelos de Lenguaje a Gran Escala (LLMs) enfrenta un cuello de botella crítico al procesar entradas extensas: la huella de memoria prohibitiva de la caché de Clave-Valor (KV). Para abordar este problema, el paradigma de la poda de *tokens* aprovecha la dispersión de la atención para retener selectivamente un subconjunto pequeño y crítico de *tokens*. Sin embargo, los enfoques existentes son insuficientes: los métodos estáticos arriesgan una pérdida irreversible de información, mientras que las estrategias dinámicas emplean heurísticas que capturan de manera insuficiente la naturaleza dependiente de la consulta de la importancia de los *tokens*. Proponemos FASA, un marco novedoso que logra la expulsión de *tokens* consciente de la consulta mediante la predicción dinámica de su importancia. FASA surge de una nueva perspectiva sobre RoPE: el descubrimiento de una dispersión funcional a nivel de fragmentos de frecuencia (*Frequency-Chunks* o FC). Nuestro hallazgo clave es que un subconjunto pequeño e identificable de FCs "dominantes" exhibe consistentemente una alta concordancia contextual con la cabeza de atención completa. Esto proporciona un *proxy* robusto y computacionalmente gratuito para identificar *tokens* salientes. Basándose en esta idea, FASA primero identifica un conjunto crítico de *tokens* utilizando las FCs dominantes, y luego realiza el cálculo de atención focalizado únicamente en este subconjunto podado. Al acceder solo a una pequeña fracción de la caché KV, FASA reduce drásticamente los requisitos de ancho de banda de memoria y el coste computacional. En un espectro de tareas de contexto largo, desde el modelado de secuencias hasta el razonamiento CoT complejo, FASA supera consistentemente a todos los métodos de referencia de expulsión de *tokens* y logra una precisión casi óptima, demostrando una robustez notable incluso bajo presupuestos restrictivos. Cabe destacar que, en LongBench-V1, FASA alcanza casi el 100% del rendimiento de la KV completa conservando solo 256 *tokens*, y logra una aceleración de 2.56 veces utilizando solo el 18.9% de la caché en AIME24.

English

The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. %making them a powerful and efficient proxy for token importance. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. % Since accessing only a small fraction of the KV cache, FASA drastically lowers memory bandwidth requirements and computational cost. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56times speedup using just 18.9\% of the cache on AIME24.

FASA: Atención Dispersa Consciente de la Frecuencia

FASA: Frequency-aware Sparse Attention

Resumen

Support