Au-delà du réel : Extension imaginaire des encodages positionnels rotatifs pour les LLMs à contexte long
Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs
December 8, 2025
papers.authors: Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu
cs.AI
papers.abstract
Les encodages positionnels rotatifs (RoPE) sont devenus une norme pour encoder l'ordre des séquences dans les grands modèles de langage (LLM) en appliquant des rotations aux vecteurs de requête et de clé dans le plan complexe. Cependant, les implémentations standard n'utilisent que la composante réelle du produit scalaire à valeurs complexes pour le calcul du score d'attention. Cette simplification élimine la composante imaginaire, qui contient des informations de phase précieuses, entraînant une perte potentielle de détails relationnels cruciaux pour la modélisation des dépendances en contexte long. Dans cet article, nous proposons une extension qui réintègre cette composante imaginaire écartée. Notre méthode exploite la représentation complexe complète pour créer un score d'attention à deux composantes. Nous démontrons théoriquement et empiriquement que cette approche améliore la modélisation des dépendances en contexte long en préservant davantage d'informations positionnelles. De plus, les évaluations sur une série de benchmarks de modélisation du langage en contexte long montrent que notre méthode améliore constamment les performances par rapport au RoPE standard, les bénéfices devenant plus significatifs à mesure que la longueur du contexte augmente. Le code est disponible à l'adresse https://github.com/OpenMOSS/rope_pp.
English
Rotary Position Embeddings (RoPE) have become a standard for encoding sequence order in Large Language Models (LLMs) by applying rotations to query and key vectors in the complex plane. Standard implementations, however, utilize only the real component of the complex-valued dot product for attention score calculation. This simplification discards the imaginary component, which contains valuable phase information, leading to a potential loss of relational details crucial for modeling long-context dependencies. In this paper, we propose an extension that re-incorporates this discarded imaginary component. Our method leverages the full complex-valued representation to create a dual-component attention score. We theoretically and empirically demonstrate that this approach enhances the modeling of long-context dependencies by preserving more positional information. Furthermore, evaluations on a suite of long-context language modeling benchmarks show that our method consistently improves performance over the standard RoPE, with the benefits becoming more significant as context length increases. The code is available at https://github.com/OpenMOSS/rope_pp.