Warum Aufmerksamkeitsmuster existieren: Eine vereinheitlichende Analyse aus zeitlicher Perspektive
Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis
January 29, 2026
papers.authors: Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li
cs.AI
papers.abstract
Aufmerksamkeitsmuster spielen eine entscheidende Rolle sowohl beim Training als auch beim Inferenzbetrieb von großen Sprachmodellen (LLMs). Bisherige Arbeiten haben einzelne Muster wie Retrieval-Heads, Sink-Heads und diagonale Spuren identifiziert, doch diese Beobachtungen bleiben fragmentiert und es fehlt an einer einheitlichen Erklärung. Um diese Lücke zu schließen, stellen wir Temporal Attention Pattern Predictability Analysis (TAPPA) vor, ein vereinheitlichendes Framework, das verschiedene Aufmerksamkeitsmuster erklärt, indem es deren zugrundeliegende mathematische Formulierungen aus einer zeitlich kontinuierlichen Perspektive analysiert. TAPPA vertieft nicht nur das Verständnis des Aufmerksamkeitsverhaltens, sondern leitet auch Ansätze zur Inferenzbeschleunigung. Konkret charakterisiert TAPPA Aufmerksamkeitsmuster als vorhersehbare Muster mit klaren Regelmäßigkeiten und unvorhersehbare Muster, die effektiv zufällig erscheinen. Unsere Analyse zeigt weiterhin, dass diese Unterscheidung durch den Grad der Query-Selbstähnlichkeit entlang der Zeitdimension erklärt werden kann. Mit Fokus auf die vorhersehbaren Muster liefern wir eine detaillierte mathematische Analyse von drei repräsentativen Fällen durch das Zusammenwirken von Queries, Keys und Rotary Positional Embeddings (RoPE). Wir validieren TAPPA, indem wir seine Erkenntnisse auf KV-Cache-Kompression und LLM-Pruning-Aufgaben anwenden. Bei diesen Aufgaben verbessert eine einfache, von TAPPA inspirierte Metrik durchgängig die Leistung gegenüber Baseline-Methoden. Der Code ist verfügbar unter https://github.com/MIRALab-USTC/LLM-TAPPA.
English
Attention patterns play a crucial role in both training and inference of large language models (LLMs). Prior works have identified individual patterns such as retrieval heads, sink heads, and diagonal traces, yet these observations remain fragmented and lack a unifying explanation. To bridge this gap, we introduce Temporal Attention Pattern Predictability Analysis (TAPPA), a unifying framework that explains diverse attention patterns by analyzing their underlying mathematical formulations from a temporally continuous perspective. TAPPA both deepens the understanding of attention behavior and guides inference acceleration approaches. Specifically, TAPPA characterizes attention patterns as predictable patterns with clear regularities and unpredictable patterns that appear effectively random. Our analysis further reveals that this distinction can be explained by the degree of query self-similarity along the temporal dimension. Focusing on the predictable patterns, we further provide a detailed mathematical analysis of three representative cases through the joint effect of queries, keys, and Rotary Positional Embeddings (RoPE). We validate TAPPA by applying its insights to KV cache compression and LLM pruning tasks. Across these tasks, a simple metric motivated by TAPPA consistently improves performance over baseline methods. The code is available at https://github.com/MIRALab-USTC/LLM-TAPPA.