RoPE Não Diferencia Nem Posições Nem Tokens em Contextos Longos, Comprovadamente

Resumo

Identificamos limitações intrínsecas dos Embeddings Posicionais Rotativos (RoPE) em modelos de linguagem de contexto longo baseados em Transformers. Nossa análise teórica abstrai o conteúdo específico do contexto e depende apenas de seu comprimento. Provamos que, à medida que o comprimento do contexto aumenta, a atenção baseada em RoPE torna-se imprevisível e perde duas propriedades centrais para sua eficácia. Primeiro, perde seu viés de localidade: o RoPE não favorece mais posições mais próximas do que posições substancialmente mais distantes. Segundo, perde a consistência na relevância dos tokens: um vetor-chave que recebe uma pontuação de atenção maior do que uma alternativa em uma posição pode receber uma pontuação menor em outra. Em ambos os casos, a probabilidade de falha se aproxima de 0,5, não melhor do que um palpite aleatório. Provamos ainda que a pontuação de atenção pode permanecer inalterada quando um token-chave é movido para uma posição diferente, ou mesmo substituído por um token diferente, indicando uma falha em distinguir posições ou tokens. Ajustar a base do RoPE cria um compromisso entre distinguir posições e distinguir tokens, mas não pode preservar ambos simultaneamente. Aumentar o hiperparâmetro da base do RoPE, uma prática comum em modelos atuais de contexto longo, ajuda a distinguir tokens diferentes, mas inevitavelmente sacrifica a capacidade de distinguir posições. Nossa análise empírica mostra que arquiteturas com múltiplas cabeças e múltiplas camadas são insuficientes para superar essas limitações. Nossos achados sugerem que mecanismos fundamentalmente novos para codificar posição e ordem dos tokens podem ser necessários em futuros modelos de linguagem de contexto longo baseados em Transformers.

English

We identify intrinsic limitations of Rotary Positional Embeddings (RoPE) in Transformer-based long-context language models. Our theoretical analysis abstracts away from the specific content of the context and depends only on its length. We prove that as context length increases, RoPE-based attention becomes unpredictable and loses two properties that are central to its effectiveness. First, it loses its locality bias: RoPE is no more likely to favor nearer positions than substantially farther ones. Second, it loses consistency in token relevance: a key vector that receives a higher attention score than an alternative at one position may receive a lower score at another. In both cases, the probability of failure approaches 0.5, no better than random guessing. We further prove that the attention score can remain unchanged when a key token is moved to a different position, or even replaced by a different token, indicating a failure to distinguish positions or tokens. Adjusting the RoPE base trades off distinguishing positions against distinguishing tokens but cannot preserve both at the same time. Increasing the RoPE base hyperparameter, a common practice in today's long-context models, helps distinguish different tokens, but inevitably sacrifices the ability to distinguish positions. Our empirical analysis shows that multi-head, multi-layer architectures are insufficient to overcome these limitations. Our findings suggest that fundamentally new mechanisms for encoding position and token order may be needed in future Transformer long-context language models.