RoPE ne distingue ni les positions ni les jetons dans les contextes longs, de manière prouvée.

Résumé

Nous identifions des limitations intrinsèques des Rotary Positional Embeddings (RoPE) dans les modèles de langage à contexte long basés sur les Transformers. Notre analyse théorique fait abstraction du contenu spécifique du contexte et ne dépend que de sa longueur. Nous prouvons qu'à mesure que la longueur du contexte augmente, l'attention basée sur RoPE devient imprévisible et perd deux propriétés essentielles à son efficacité. Premièrement, elle perd son biais de localité : RoPE n'est plus plus susceptible de favoriser des positions proches que des positions nettement plus éloignées. Deuxièmement, elle perd la cohérence dans la pertinence des tokens : un vecteur clé qui reçoit un score d'attention plus élevé qu'un autre à une position donnée peut recevoir un score plus faible à une autre position. Dans les deux cas, la probabilité d'échec approche 0,5, soit pas mieux qu'une supposition aléatoire. Nous prouvons également que le score d'attention peut rester inchangé lorsqu'un token clé est déplacé vers une position différente, ou même remplacé par un autre token, ce qui indique une incapacité à distinguer les positions ou les tokens. Ajuster la base de RoPE établit un compromis entre la distinction des positions et celle des tokens, sans pouvoir préserver les deux simultanément. Augmenter l'hyperparamètre de base de RoPE, une pratique courante dans les modèles à contexte long actuels, aide à distinguer différents tokens, mais sacrifie inévitablement la capacité à distinguer les positions. Notre analyse empirique montre que les architectures multi-têtes et multi-couches sont insuffisantes pour surmonter ces limitations. Nos résultats suggèrent que des mécanismes fondamentalement nouveaux pour encoder la position et l'ordre des tokens pourraient être nécessaires dans les futurs modèles de langage à contexte long basés sur les Transformers.

English

We identify intrinsic limitations of Rotary Positional Embeddings (RoPE) in Transformer-based long-context language models. Our theoretical analysis abstracts away from the specific content of the context and depends only on its length. We prove that as context length increases, RoPE-based attention becomes unpredictable and loses two properties that are central to its effectiveness. First, it loses its locality bias: RoPE is no more likely to favor nearer positions than substantially farther ones. Second, it loses consistency in token relevance: a key vector that receives a higher attention score than an alternative at one position may receive a lower score at another. In both cases, the probability of failure approaches 0.5, no better than random guessing. We further prove that the attention score can remain unchanged when a key token is moved to a different position, or even replaced by a different token, indicating a failure to distinguish positions or tokens. Adjusting the RoPE base trades off distinguishing positions against distinguishing tokens but cannot preserve both at the same time. Increasing the RoPE base hyperparameter, a common practice in today's long-context models, helps distinguish different tokens, but inevitably sacrifices the ability to distinguish positions. Our empirical analysis shows that multi-head, multi-layer architectures are insufficient to overcome these limitations. Our findings suggest that fundamentally new mechanisms for encoding position and token order may be needed in future Transformer long-context language models.