Más Allá de lo Real: Extensión Imaginaria de los Embeddings de Posición Rotatorios para LLMs de Contexto Largo
Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs
December 8, 2025
Autores: Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu
cs.AI
Resumen
Las Incrustaciones Posicionales Rotatorias (RoPE) se han convertido en un estándar para codificar el orden de secuencia en los Modelos de Lenguaje Grandes (LLM) mediante la aplicación de rotaciones a los vectores de consulta y clave en el plano complejo. Sin embargo, las implementaciones estándar utilizan únicamente el componente real del producto escalar de valor complejo para el cálculo de la puntuación de atención. Esta simplificación descarta el componente imaginario, que contiene valiosa información de fase, lo que conduce a una posible pérdida de detalles relacionales cruciales para modelar dependencias de contexto largo. En este artículo, proponemos una extensión que reincorpora este componente imaginario descartado. Nuestro método aprovecha la representación compleja completa para crear una puntuación de atención de dos componentes. Demostramos teórica y empíricamente que este enfoque mejora el modelado de dependencias de contexto largo al preservar más información posicional. Además, las evaluaciones en un conjunto de benchmarks de modelado de lenguaje de contexto largo muestran que nuestro método mejora consistentemente el rendimiento respecto al RoPE estándar, siendo los beneficios más significativos a medida que aumenta la longitud del contexto. El código está disponible en https://github.com/OpenMOSS/rope_pp.
English
Rotary Position Embeddings (RoPE) have become a standard for encoding sequence order in Large Language Models (LLMs) by applying rotations to query and key vectors in the complex plane. Standard implementations, however, utilize only the real component of the complex-valued dot product for attention score calculation. This simplification discards the imaginary component, which contains valuable phase information, leading to a potential loss of relational details crucial for modeling long-context dependencies. In this paper, we propose an extension that re-incorporates this discarded imaginary component. Our method leverages the full complex-valued representation to create a dual-component attention score. We theoretically and empirically demonstrate that this approach enhances the modeling of long-context dependencies by preserving more positional information. Furthermore, evaluations on a suite of long-context language modeling benchmarks show that our method consistently improves performance over the standard RoPE, with the benefits becoming more significant as context length increases. The code is available at https://github.com/OpenMOSS/rope_pp.