ChatPaper.aiChatPaper

Voorbij het Reële: Imaginaire Uitbreiding van Rotatiepositie-Embeddings voor LLM's met Lange Context

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

December 8, 2025
Auteurs: Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu
cs.AI

Samenvatting

Roterende Positie-Embeddings (RoPE) zijn een standaard geworden voor het coderen van volgorde-informatie in Large Language Models (LLM's) door rotaties toe te passen op query- en key-vectoren in het complexe vlak. Standaardimplementaties maken echter alleen gebruik van het reële component van het complexwaardige inproduct voor de berekening van de attentiescore. Deze vereenvoudiging negeert het imaginaire component, dat waardevolle fase-informatie bevat, wat kan leiden tot verlies van relationele details die cruciaal zijn voor het modelleren van lange-context afhankelijkheden. In dit artikel stellen we een extensie voor die dit genegeerde imaginaire component opnieuw integreert. Onze methode benut de volledige complexwaardige representatie om een attentiescore met twee componenten te creëren. We tonen zowel theoretisch als empirisch aan dat deze aanpak het modelleren van lange-context afhankelijkheden verbetert door meer positionele informatie te behouden. Evaluaties op een reeks benchmarks voor taalmodellering met lange context tonen verder aan dat onze methode consistent betere prestaties levert dan de standaard RoPE, waarbij de voordelen toenemen naarmate de contextlengte groter wordt. De code is beschikbaar op https://github.com/OpenMOSS/rope_pp.
English
Rotary Position Embeddings (RoPE) have become a standard for encoding sequence order in Large Language Models (LLMs) by applying rotations to query and key vectors in the complex plane. Standard implementations, however, utilize only the real component of the complex-valued dot product for attention score calculation. This simplification discards the imaginary component, which contains valuable phase information, leading to a potential loss of relational details crucial for modeling long-context dependencies. In this paper, we propose an extension that re-incorporates this discarded imaginary component. Our method leverages the full complex-valued representation to create a dual-component attention score. We theoretically and empirically demonstrate that this approach enhances the modeling of long-context dependencies by preserving more positional information. Furthermore, evaluations on a suite of long-context language modeling benchmarks show that our method consistently improves performance over the standard RoPE, with the benefits becoming more significant as context length increases. The code is available at https://github.com/OpenMOSS/rope_pp.
PDF502December 10, 2025