Por que os Padrões de Atenção Existem: Uma Análise Unificadora sob a Perspectiva Temporal

Resumo

Os padrões de atenção desempenham um papel crucial tanto no treinamento quanto na inferência de grandes modelos de linguagem (LLMs). Trabalhos anteriores identificaram padrões individuais, como cabeças de recuperação, cabeças sumidouro e traços diagonais, mas essas observações permanecem fragmentadas e carecem de uma explicação unificadora. Para preencher essa lacuna, introduzimos a Análise de Previsibilidade de Padrões de Atenção Temporal (TAPPA), uma estrutura unificadora que explica diversos padrões de atenção analisando suas formulações matemáticas subjacentes a partir de uma perspectiva temporalmente contínua. A TAPPA tanto aprofunda a compreensão do comportamento da atenção quanto orienta abordagens de aceleração de inferência. Especificamente, a TAPPA caracteriza os padrões de atenção como padrões previsíveis com regularidades claras e padrões imprevisíveis que aparentam ser efetivamente aleatórios. Nossa análise revela ainda que essa distinção pode ser explicada pelo grau de auto-semelhança das consultas ao longo da dimensão temporal. Concentrando-nos nos padrões previsíveis, fornecemos ainda uma análise matemática detalhada de três casos representativos através do efeito conjunto das consultas, chaves e *Embeddings* Posicionais Rotativos (RoPE). Validamos a TAPPA aplicando as suas perspetivas a tarefas de compressão da cache KV e de poda de LLMs. Nestas tarefas, uma métrica simples motivada pela TAPPA melhora consistentemente o desempenho em relação aos métodos de base. O código está disponível em https://github.com/MIRALab-USTC/LLM-TAPPA.

English

Attention patterns play a crucial role in both training and inference of large language models (LLMs). Prior works have identified individual patterns such as retrieval heads, sink heads, and diagonal traces, yet these observations remain fragmented and lack a unifying explanation. To bridge this gap, we introduce Temporal Attention Pattern Predictability Analysis (TAPPA), a unifying framework that explains diverse attention patterns by analyzing their underlying mathematical formulations from a temporally continuous perspective. TAPPA both deepens the understanding of attention behavior and guides inference acceleration approaches. Specifically, TAPPA characterizes attention patterns as predictable patterns with clear regularities and unpredictable patterns that appear effectively random. Our analysis further reveals that this distinction can be explained by the degree of query self-similarity along the temporal dimension. Focusing on the predictable patterns, we further provide a detailed mathematical analysis of three representative cases through the joint effect of queries, keys, and Rotary Positional Embeddings (RoPE). We validate TAPPA by applying its insights to KV cache compression and LLM pruning tasks. Across these tasks, a simple metric motivated by TAPPA consistently improves performance over baseline methods. The code is available at https://github.com/MIRALab-USTC/LLM-TAPPA.

Por que os Padrões de Atenção Existem: Uma Análise Unificadora sob a Perspectiva Temporal

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

Resumo

Support