ChatPaper.aiChatPaper

Почему существуют паттерны внимания: объединяющий анализ с временной перспективы

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

January 29, 2026
Авторы: Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li
cs.AI

Аннотация

Паттерны внимания играют ключевую роль как при обучении, так и при выводе больших языковых моделей (LLM). Предыдущие работы выявили отдельные паттерны, такие как головы извлечения, головы-стоки и диагональные следы, однако эти наблюдения остаются разрозненными и не имеют единого объяснения. Чтобы заполнить этот пробел, мы представляем Анализ Предсказуемости Временных Паттернов Внимания (TAPPA) — унифицирующую framework, которая объясняет разнообразные паттерны внимания, анализируя их базовые математические формулировки с точки зрения временной непрерывности. TAPPA как углубляет понимание поведения механизма внимания, так и направляет подходы к ускорению вывода. В частности, TAPPA характеризует паттерны внимания как предсказуемые паттерны с четкими закономерностями и непредсказуемые паттерны, которые выглядят практически случайными. Наш анализ дополнительно показывает, что это различие можно объяснить степенью самоподобия запросов (query) вдоль временной размерности. Сосредоточившись на предсказуемых паттернах, мы далее предоставляем детальный математический анализ трех репрезентативных случаев через совместный эффект запросов (queries), ключей (keys) и ротационных позиционных эмбеддингов (RoPE). Мы проверяем TAPPA, применяя полученные инсайты к задачам сжатия KV-кэша и прунинга LLM. В этих задачах простая метрика, основанная на TAPPA, последовательно улучшает производительность по сравнению с базовыми методами. Код доступен по адресу https://github.com/MIRALab-USTC/LLM-TAPPA.
English
Attention patterns play a crucial role in both training and inference of large language models (LLMs). Prior works have identified individual patterns such as retrieval heads, sink heads, and diagonal traces, yet these observations remain fragmented and lack a unifying explanation. To bridge this gap, we introduce Temporal Attention Pattern Predictability Analysis (TAPPA), a unifying framework that explains diverse attention patterns by analyzing their underlying mathematical formulations from a temporally continuous perspective. TAPPA both deepens the understanding of attention behavior and guides inference acceleration approaches. Specifically, TAPPA characterizes attention patterns as predictable patterns with clear regularities and unpredictable patterns that appear effectively random. Our analysis further reveals that this distinction can be explained by the degree of query self-similarity along the temporal dimension. Focusing on the predictable patterns, we further provide a detailed mathematical analysis of three representative cases through the joint effect of queries, keys, and Rotary Positional Embeddings (RoPE). We validate TAPPA by applying its insights to KV cache compression and LLM pruning tasks. Across these tasks, a simple metric motivated by TAPPA consistently improves performance over baseline methods. The code is available at https://github.com/MIRALab-USTC/LLM-TAPPA.
PDF22February 3, 2026