RoPE no distingue ni posiciones ni tokens en contextos largos, demostrablemente.

Resumen

Identificamos limitaciones intrínsecas de los Embeddings Posicionales Rotatorios (RoPE) en modelos de lenguaje de contexto largo basados en Transformers. Nuestro análisis teórico se abstrae del contenido específico del contexto y depende únicamente de su longitud. Demostramos que, a medida que la longitud del contexto aumenta, la atención basada en RoPE se vuelve impredecible y pierde dos propiedades centrales para su efectividad. Primero, pierde su sesgo de localidad: RoPE ya no favorece más posiciones cercanas que significativamente lejanas. Segundo, pierde la consistencia en la relevancia de los tokens: un vector clave que recibe una puntuación de atención más alta que otro en una posición puede recibir una puntuación más baja en otra. En ambos casos, la probabilidad de fallo se aproxima a 0.5, sin superar una adivinación aleatoria. Además, demostramos que la puntuación de atención puede permanecer inalterada cuando un token clave se traslada a una posición diferente, o incluso es reemplazado por un token distinto, lo que indica una incapacidad para distinguir posiciones o tokens. Ajustar la base de RoPE implica un equilibrio entre distinguir posiciones y distinguir tokens, sin poder preservar ambas simultáneamente. Incrementar el hiperparámetro de la base de RoPE, una práctica común en los modelos de contexto largo actuales, ayuda a distinguir diferentes tokens, pero inevitablemente sacrifica la capacidad de distinguir posiciones. Nuestro análisis empírico muestra que las arquitecturas de múltiples cabezas y múltiples capas son insuficientes para superar estas limitaciones. Nuestros hallazgos sugieren que futuros modelos de lenguaje de contexto largo basados en Transformers podrían requerir mecanismos fundamentalmente nuevos para codificar la posición y el orden de los tokens.

English

We identify intrinsic limitations of Rotary Positional Embeddings (RoPE) in Transformer-based long-context language models. Our theoretical analysis abstracts away from the specific content of the context and depends only on its length. We prove that as context length increases, RoPE-based attention becomes unpredictable and loses two properties that are central to its effectiveness. First, it loses its locality bias: RoPE is no more likely to favor nearer positions than substantially farther ones. Second, it loses consistency in token relevance: a key vector that receives a higher attention score than an alternative at one position may receive a lower score at another. In both cases, the probability of failure approaches 0.5, no better than random guessing. We further prove that the attention score can remain unchanged when a key token is moved to a different position, or even replaced by a different token, indicating a failure to distinguish positions or tokens. Adjusting the RoPE base trades off distinguishing positions against distinguishing tokens but cannot preserve both at the same time. Increasing the RoPE base hyperparameter, a common practice in today's long-context models, helps distinguish different tokens, but inevitably sacrifices the ability to distinguish positions. Our empirical analysis shows that multi-head, multi-layer architectures are insufficient to overcome these limitations. Our findings suggest that fundamentally new mechanisms for encoding position and token order may be needed in future Transformer long-context language models.