ChatPaper.aiChatPaper

**Por Qué Existen los Patrones de Atención: Un Análisis Unificador desde una Perspectiva Temporal**

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

January 29, 2026
Autores: Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li
cs.AI

Resumen

Los patrones de atención desempeñan un papel crucial tanto en el entrenamiento como en la inferencia de los grandes modelos de lenguaje (LLM). Trabajos previos han identificado patrones individuales como cabezas de recuperación, cabezas sumidero y trazas diagonales, pero estas observaciones siguen fragmentadas y carecen de una explicación unificadora. Para cerrar esta brecha, presentamos el Análisis de Predictibilidad de Patrones de Atención Temporal (TAPPA), un marco unificador que explica diversos patrones de atención analizando sus formulaciones matemáticas subyacentes desde una perspectiva temporalmente continua. TAPPA no solo profundiza la comprensión del comportamiento de la atención, sino que también guía enfoques de aceleración de la inferencia. Específicamente, TAPPA caracteriza los patrones de atención como patrones predecibles con regularidades claras y patrones impredecibles que aparecen efectivamente aleatorios. Nuestro análisis revela además que esta distinción puede explicarse por el grado de autosimilitud de las consultas a lo largo de la dimensión temporal. Centrándonos en los patrones predecibles, proporcionamos un análisis matemático detallado de tres casos representativos a través del efecto conjunto de las consultas, las claves y los Embeddings Posicionales Rotativos (RoPE). Validamos TAPPA aplicando sus insights a tareas de compresión de la caché KV y poda de LLM. En estas tareas, una métrica simple motivada por TAPPA mejora consistentemente el rendimiento respecto a los métodos base. El código está disponible en https://github.com/MIRALab-USTC/LLM-TAPPA.
English
Attention patterns play a crucial role in both training and inference of large language models (LLMs). Prior works have identified individual patterns such as retrieval heads, sink heads, and diagonal traces, yet these observations remain fragmented and lack a unifying explanation. To bridge this gap, we introduce Temporal Attention Pattern Predictability Analysis (TAPPA), a unifying framework that explains diverse attention patterns by analyzing their underlying mathematical formulations from a temporally continuous perspective. TAPPA both deepens the understanding of attention behavior and guides inference acceleration approaches. Specifically, TAPPA characterizes attention patterns as predictable patterns with clear regularities and unpredictable patterns that appear effectively random. Our analysis further reveals that this distinction can be explained by the degree of query self-similarity along the temporal dimension. Focusing on the predictable patterns, we further provide a detailed mathematical analysis of three representative cases through the joint effect of queries, keys, and Rotary Positional Embeddings (RoPE). We validate TAPPA by applying its insights to KV cache compression and LLM pruning tasks. Across these tasks, a simple metric motivated by TAPPA consistently improves performance over baseline methods. The code is available at https://github.com/MIRALab-USTC/LLM-TAPPA.
PDF22February 3, 2026