ChatPaper.aiChatPaper

Pourquoi les motifs d'attention existent : une analyse unificatrice sous l'angle temporel

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

January 29, 2026
papers.authors: Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li
cs.AI

papers.abstract

Les motifs d'attention jouent un rôle crucial dans l'entraînement et l'inférence des grands modèles de langage. Les travaux antérieurs ont identifié des motifs individuels tels que les têtes de récupération, les têtes d'absorption et les traces diagonales, mais ces observations demeurent fragmentées et manquent d'une explication unificatrice. Pour combler cette lacune, nous présentons l'Analyse de Prévisibilité des Motifs d'Attention Temporelle (TAPPA), un cadre unificateur qui explique la diversité des motifs d'attention en analysant leurs formulations mathématiques sous-jacentes d'une perspective temporellement continue. TAPPA approfondit à la fois la compréhension du comportement de l'attention et guide les approches d'accélération de l'inférence. Plus précisément, TAPPA caractérise les motifs d'attention comme étant soit des motifs prévisibles avec des régularités claires, soit des motifs imprévisibles apparaissant effectivement aléatoires. Notre analyse révèle en outre que cette distinction peut s'expliquer par le degré d'auto-similarité des requêtes le long de la dimension temporelle. En nous concentrant sur les motifs prévisibles, nous fournissons une analyse mathématique détaillée de trois cas représentatifs à travers l'effet conjoint des requêtes, des clés et des Embeddings Positionnels Rotatifs (RoPE). Nous validons TAPPA en appliquant ses insights à des tâches de compression du cache KV et d'élagage de modèles de langage. Pour ces tâches, une métrique simple inspirée par TAPPA améliore constamment les performances par rapport aux méthodes de référence. Le code est disponible à l'adresse https://github.com/MIRALab-USTC/LLM-TAPPA.
English
Attention patterns play a crucial role in both training and inference of large language models (LLMs). Prior works have identified individual patterns such as retrieval heads, sink heads, and diagonal traces, yet these observations remain fragmented and lack a unifying explanation. To bridge this gap, we introduce Temporal Attention Pattern Predictability Analysis (TAPPA), a unifying framework that explains diverse attention patterns by analyzing their underlying mathematical formulations from a temporally continuous perspective. TAPPA both deepens the understanding of attention behavior and guides inference acceleration approaches. Specifically, TAPPA characterizes attention patterns as predictable patterns with clear regularities and unpredictable patterns that appear effectively random. Our analysis further reveals that this distinction can be explained by the degree of query self-similarity along the temporal dimension. Focusing on the predictable patterns, we further provide a detailed mathematical analysis of three representative cases through the joint effect of queries, keys, and Rotary Positional Embeddings (RoPE). We validate TAPPA by applying its insights to KV cache compression and LLM pruning tasks. Across these tasks, a simple metric motivated by TAPPA consistently improves performance over baseline methods. The code is available at https://github.com/MIRALab-USTC/LLM-TAPPA.
PDF22February 3, 2026