RoPE доказуемо не различает ни позиции, ни токены в длинных контекстах.

Аннотация

Мы выявляем внутренние ограничения вращательных позиционных вложений (RoPE) в языковых моделях с длинным контекстом на основе Transformer. Наш теоретический анализ абстрагируется от конкретного содержания контекста и зависит только от его длины. Мы доказываем, что при увеличении длины контекста внимание на основе RoPE становится непредсказуемым и теряет два свойства, которые являются центральными для его эффективности. Во-первых, оно теряет свой локальный уклон: RoPE больше не склонен отдавать предпочтение более близким позициям перед значительно более отдаленными. Во-вторых, оно теряет согласованность в релеванности токенов: вектор ключа, который получает более высокий балл внимания, чем альтернатива на одной позиции, может получить более низкий балл на другой. В обоих случаях вероятность ошибки приближается к 0.5, что не лучше случайного угадывания. Мы также доказываем, что балл внимания может оставаться неизменным, когда ключевой токен перемещается на другую позицию или даже заменяется другим токеном, что указывает на неспособность различать позиции или токены. Регулировка базы RoPE создает компромисс между различением позиций и различением токенов, но не может сохранить оба одновременно. Увеличение гиперпараметра базы RoPE, общепринятая практика в современных моделях с длинным контекстом, помогает различать разные токены, но неизбежно жертвует способностью различать позиции. Наш эмпирический анализ показывает, что многослойные архитектуры с несколькими головами недостаточны для преодоления этих ограничений. Наши результаты указывают на то, что в будущих языковых моделях с длинным контекстом на основе Transformer могут потребоваться принципиально новые механизмы для кодирования позиции и порядка токенов.

English

We identify intrinsic limitations of Rotary Positional Embeddings (RoPE) in Transformer-based long-context language models. Our theoretical analysis abstracts away from the specific content of the context and depends only on its length. We prove that as context length increases, RoPE-based attention becomes unpredictable and loses two properties that are central to its effectiveness. First, it loses its locality bias: RoPE is no more likely to favor nearer positions than substantially farther ones. Second, it loses consistency in token relevance: a key vector that receives a higher attention score than an alternative at one position may receive a lower score at another. In both cases, the probability of failure approaches 0.5, no better than random guessing. We further prove that the attention score can remain unchanged when a key token is moved to a different position, or even replaced by a different token, indicating a failure to distinguish positions or tokens. Adjusting the RoPE base trades off distinguishing positions against distinguishing tokens but cannot preserve both at the same time. Increasing the RoPE base hyperparameter, a common practice in today's long-context models, helps distinguish different tokens, but inevitably sacrifices the ability to distinguish positions. Our empirical analysis shows that multi-head, multi-layer architectures are insufficient to overcome these limitations. Our findings suggest that fundamentally new mechanisms for encoding position and token order may be needed in future Transformer long-context language models.