ChatPaper.aiChatPaper

Разоблачая паттерн косой черты в механизме внимания: роль RoPE

Demystifying the Slash Pattern in Attention: The Role of RoPE

January 13, 2026
Авторы: Yuan Cheng, Fengzhuo Zhang, Yunlong Hou, Cunxiao Du, Chao Du, Tianyu Pang, Aixin Sun, Zhuoran Yang
cs.AI

Аннотация

Крупные языковые модели (LLM) часто демонстрируют диагональные паттерны внимания, при которых оценки внимания концентрируются вдоль Δ-й субдиагонали для некоторого смещения Δ. Эти паттерны играют ключевую роль в передаче информации между токенами. Но почему они возникают? В данной статье мы объясняем возникновение этих доминирующих диагональных голов внимания (SDH) как с эмпирической, так и с теоретической точек зрения. Во-первых, анализируя открытые LLM, мы обнаруживаем, что SDH являются внутренним свойством моделей и обобщаются на промпты извне распределения обучающих данных. Чтобы объяснить внутреннее возникновение SDH, мы анализируем запросы, ключи и ротационные позиционные эмбеддинги (RoPE), которые совместно определяют оценки внимания. Наш эмпирический анализ выявляет два характерных условия для SDH: (1) Запросы и ключи являются почти ранга один, и (2) RoPE доминируют средне- и высокочастотные компоненты. При этих условиях запросы и ключи практически идентичны для всех токенов, а взаимодействия между средне- и высокочастотными компонентами RoPE приводят к возникновению SDH. Помимо эмпирических данных, мы теоретически показываем, что этих условий достаточно для обеспечения появления SDH, формализуя их в качестве наших модельных предположений. В частности, мы анализируем динамику обучения неглубокого трансформера, оснащенного RoPE, при этих условиях и доказываем, что модели, обученные методом градиентного спуска, проявляют SDH. Эти SDH обобщаются на промпты извне распределения данных.
English
Large Language Models (LLMs) often exhibit slash attention patterns, where attention scores concentrate along the Δ-th sub-diagonal for some offset Δ. These patterns play a key role in passing information across tokens. But why do they emerge? In this paper, we demystify the emergence of these Slash-Dominant Heads (SDHs) from both empirical and theoretical perspectives. First, by analyzing open-source LLMs, we find that SDHs are intrinsic to models and generalize to out-of-distribution prompts. To explain the intrinsic emergence, we analyze the queries, keys, and Rotary Position Embedding (RoPE), which jointly determine attention scores. Our empirical analysis reveals two characteristic conditions of SDHs: (1) Queries and keys are almost rank-one, and (2) RoPE is dominated by medium- and high-frequency components. Under these conditions, queries and keys are nearly identical across tokens, and interactions between medium- and high-frequency components of RoPE give rise to SDHs. Beyond empirical evidence, we theoretically show that these conditions are sufficient to ensure the emergence of SDHs by formalizing them as our modeling assumptions. Particularly, we analyze the training dynamics of a shallow Transformer equipped with RoPE under these conditions, and prove that models trained via gradient descent exhibit SDHs. The SDHs generalize to out-of-distribution prompts.
PDF11January 17, 2026