RoPE unterscheidet weder Positionen noch Token in langen Kontexten, nachweislich.

Zusammenfassung

Wir identifizieren intrinsische Einschränkungen von Rotierenden Positions-Einbettungen (RoPE) in Transformer-basierten Sprachmodellen für lange Kontexte. Unsere theoretische Analyse abstrahiert vom spezifischen Inhalt des Kontexts und hängt nur von dessen Länge ab. Wir beweisen, dass mit zunehmender Kontextlänge die RoPE-basierte Attention unvorhersagbar wird und zwei für ihre Wirksamkeit zentrale Eigenschaften verliert. Erstens verliert sie ihren Lokalitäts-Bias: RoPE begünstigt nähere Positionen nicht mehr wahrscheinlicher als wesentlich weiter entfernte. Zweitens verliert sie die Konsistenz der Token-Relevanz: Ein Schlüsselvektor, der an einer Position einen höheren Attention-Score erhält als ein anderer, kann an einer anderen Position einen niedrigeren Score erhalten. In beiden Fällen nähert sich die Fehlerwahrscheinlichkeit 0,5 an, was nicht besser ist als zufälliges Raten. Wir beweisen ferner, dass der Attention-Score unverändert bleiben kann, wenn ein Schlüssel-Token an eine andere Position verschoben oder sogar durch ein anderes Token ersetzt wird, was auf ein Versagen hindeutet, Positionen oder Token zu unterscheiden. Durch die Anpassung der RoPE-Basis wird die Fähigkeit, Positionen zu unterscheiden, gegen die Fähigkeit, Token zu unterscheiden, abgetauscht, aber beides kann nicht gleichzeitig bewahrt werden. Die Erhöhung des RoPE-Basis-Hyperparameters, eine gängige Praxis in heutigen Langkontextmodellen, hilft, verschiedene Token zu unterscheiden, opfert aber zwangsläufig die Fähigkeit, Positionen zu unterscheiden. Unsere empirische Analyse zeigt, dass Mehrkopf- und Mehrschichtarchitekturen nicht ausreichen, um diese Einschränkungen zu überwinden. Unsere Ergebnisse deuten darauf hin, dass in zukünftigen Transformer-Sprachmodellen für lange Kontexte grundlegend neue Mechanismen zur Codierung von Position und Token-Reihenfolge erforderlich sein könnten.

English

We identify intrinsic limitations of Rotary Positional Embeddings (RoPE) in Transformer-based long-context language models. Our theoretical analysis abstracts away from the specific content of the context and depends only on its length. We prove that as context length increases, RoPE-based attention becomes unpredictable and loses two properties that are central to its effectiveness. First, it loses its locality bias: RoPE is no more likely to favor nearer positions than substantially farther ones. Second, it loses consistency in token relevance: a key vector that receives a higher attention score than an alternative at one position may receive a lower score at another. In both cases, the probability of failure approaches 0.5, no better than random guessing. We further prove that the attention score can remain unchanged when a key token is moved to a different position, or even replaced by a different token, indicating a failure to distinguish positions or tokens. Adjusting the RoPE base trades off distinguishing positions against distinguishing tokens but cannot preserve both at the same time. Increasing the RoPE base hyperparameter, a common practice in today's long-context models, helps distinguish different tokens, but inevitably sacrifices the ability to distinguish positions. Our empirical analysis shows that multi-head, multi-layer architectures are insufficient to overcome these limitations. Our findings suggest that fundamentally new mechanisms for encoding position and token order may be needed in future Transformer long-context language models.