RoPE onderscheidt noch posities noch tokens in lange contexten, aantoonbaar.

Samenvatting

We identificeren intrinsieke beperkingen van Rotary Positional Embeddings (RoPE) in op Transformers gebaseerde taalmodellen voor lange contexten. Onze theoretische analyse abstraheert van de specifieke inhoud van de context en hangt alleen af van de lengte ervan. We bewijzen dat naarmate de contextlengte toeneemt, de op RoPE gebaseerde aandacht onvoorspelbaar wordt en twee eigenschappen verliest die centraal staan in de effectiviteit ervan. Ten eerste verliest het zijn lokaliteitsbias: RoPE heeft niet langer een grotere kans om nabijgelegen posities te bevoordelen boven aanzienlijk verder weg gelegen posities. Ten tweede verliest het consistentie in tokenrelevantie: een sleutelvector die op de ene positie een hogere aandachtscore krijgt dan een alternatief, kan op een andere positie een lagere score krijgen. In beide gevallen nadert de kans op falen 0,5, niet beter dan willekeurig gokken. We bewijzen verder dat de aandachtscore onveranderd kan blijven wanneer een sleuteltoken naar een andere positie wordt verplaatst, of zelfs wordt vervangen door een ander token, wat wijst op een falen om posities of tokens te onderscheiden. Het aanpassen van de RoPE-basis weegt het onderscheiden van posities af tegen het onderscheiden van tokens, maar kan niet beide tegelijk behouden. Het verhogen van de RoPE-basis hyperparameter, een gangbare praktijk in hedendaagse modellen voor lange contexten, helpt om verschillende tokens te onderscheiden, maar offert onvermijdelijk het vermogen om posities te onderscheiden op. Onze empirische analyse toont aan dat multi-hoofd, multi-laag architecturen onvoldoende zijn om deze beperkingen te overwinnen. Onze bevindingen suggereren dat fundamenteel nieuwe mechanismen voor het coderen van positie en tokenvolgorde nodig kunnen zijn in toekomstige op Transformers gebaseerde taalmodellen voor lange contexten.

English

We identify intrinsic limitations of Rotary Positional Embeddings (RoPE) in Transformer-based long-context language models. Our theoretical analysis abstracts away from the specific content of the context and depends only on its length. We prove that as context length increases, RoPE-based attention becomes unpredictable and loses two properties that are central to its effectiveness. First, it loses its locality bias: RoPE is no more likely to favor nearer positions than substantially farther ones. Second, it loses consistency in token relevance: a key vector that receives a higher attention score than an alternative at one position may receive a lower score at another. In both cases, the probability of failure approaches 0.5, no better than random guessing. We further prove that the attention score can remain unchanged when a key token is moved to a different position, or even replaced by a different token, indicating a failure to distinguish positions or tokens. Adjusting the RoPE base trades off distinguishing positions against distinguishing tokens but cannot preserve both at the same time. Increasing the RoPE base hyperparameter, a common practice in today's long-context models, helps distinguish different tokens, but inevitably sacrifices the ability to distinguish positions. Our empirical analysis shows that multi-head, multi-layer architectures are insufficient to overcome these limitations. Our findings suggest that fundamentally new mechanisms for encoding position and token order may be needed in future Transformer long-context language models.