Perché Esistono i Modelli di Attenzione: Un'Analisi Unificante dalla Prospettiva Temporale

Abstract

I modelli di attenzione svolgono un ruolo cruciale sia nell'addestramento che nell'inferenza dei grandi modelli linguistici (LLM). Studi precedenti hanno identificato modelli individuali come le teste di recupero, le teste sink e le tracce diagonali, ma queste osservazioni rimangono frammentate e prive di una spiegazione unificante. Per colmare questa lacuna, introduciamo la Temporal Attention Pattern Predictability Analysis (TAPPA), un quadro unificante che spiega i diversi modelli di attenzione analizzando le loro formulazioni matematiche sottostanti da una prospettiva temporalmente continua. TAPPA approfondisce sia la comprensione del comportamento dell'attenzione che guida gli approcci di accelerazione dell'inferenza. Nello specifico, TAPPA caratterizza i modelli di attenzione come modelli prevedibili con chiare regolarità e modelli imprevedibili che appaiono effettivamente casuali. La nostra analisi rivela inoltre che questa distinzione può essere spiegata dal grado di auto-similarità delle query lungo la dimensione temporale. Concentrandoci sui modelli prevedibili, forniamo un'analisi matematica dettagliata di tre casi rappresentativi attraverso l'effetto congiunto di query, chiavi e Rotary Positional Embeddings (RoPE). Convalidiamo TAPPA applicando le sue intuizioni a compiti di compressione della cache KV e di pruning degli LLM. In questi compiti, una semplice metrica motivata da TAPPA migliora costantemente le prestazioni rispetto ai metodi baseline. Il codice è disponibile all'indirizzo https://github.com/MIRALab-USTC/LLM-TAPPA.

English

Attention patterns play a crucial role in both training and inference of large language models (LLMs). Prior works have identified individual patterns such as retrieval heads, sink heads, and diagonal traces, yet these observations remain fragmented and lack a unifying explanation. To bridge this gap, we introduce Temporal Attention Pattern Predictability Analysis (TAPPA), a unifying framework that explains diverse attention patterns by analyzing their underlying mathematical formulations from a temporally continuous perspective. TAPPA both deepens the understanding of attention behavior and guides inference acceleration approaches. Specifically, TAPPA characterizes attention patterns as predictable patterns with clear regularities and unpredictable patterns that appear effectively random. Our analysis further reveals that this distinction can be explained by the degree of query self-similarity along the temporal dimension. Focusing on the predictable patterns, we further provide a detailed mathematical analysis of three representative cases through the joint effect of queries, keys, and Rotary Positional Embeddings (RoPE). We validate TAPPA by applying its insights to KV cache compression and LLM pruning tasks. Across these tasks, a simple metric motivated by TAPPA consistently improves performance over baseline methods. The code is available at https://github.com/MIRALab-USTC/LLM-TAPPA.

Perché Esistono i Modelli di Attenzione: Un'Analisi Unificante dalla Prospettiva Temporale

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

Abstract

Support