ChatPaper.aiChatPaper

Jenseits des Realen: Imaginäre Erweiterung rotatorischer Positions-Einbettungen für LLMs mit langem Kontext

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

December 8, 2025
papers.authors: Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu
cs.AI

papers.abstract

Rotary Position Embeddings (RoPE) haben sich als Standard zur Kodierung der Reihenfolge in Large Language Models (LLMs) etabliert, indem sie Rotationen auf Query- und Key-Vektoren in der komplexen Ebene anwenden. Standardimplementierungen nutzen jedoch nur die Real-Komponente des komplexwertigen Skalarprodukts zur Berechnung der Attention-Scores. Diese Vereinfachung verwirft die Imaginär-Komponente, welche wertvolle Phaseninformationen enthält, und führt zu einem potenziellen Verlust an relationalen Details, die für die Modellierung langreichweitiger Kontextabhängigkeiten entscheidend sind. In diesem Artikel schlagen wir eine Erweiterung vor, die diese verworfenen Imaginär-Komponenten wieder einbezieht. Unser Verfahren nutzt die vollständige komplexwertige Darstellung, um einen zweikomponentigen Attention-Score zu erzeugen. Wir zeigen theoretisch und empirisch, dass dieser Ansatz die Modellierung langreichweitiger Abhängigkeiten verbessert, indem er mehr Positionsinformationen erhält. Darüber hinaus belegen Evaluationen auf einer Reihe von Benchmarks zur Sprachmodellierung mit langem Kontext, dass unsere Methode die Leistung im Vergleich zur Standard-RoPE konsistent steigert, wobei die Vorteile mit zunehmender Kontextlänge signifikanter werden. Der Code ist verfügbar unter https://github.com/OpenMOSS/rope_pp.
English
Rotary Position Embeddings (RoPE) have become a standard for encoding sequence order in Large Language Models (LLMs) by applying rotations to query and key vectors in the complex plane. Standard implementations, however, utilize only the real component of the complex-valued dot product for attention score calculation. This simplification discards the imaginary component, which contains valuable phase information, leading to a potential loss of relational details crucial for modeling long-context dependencies. In this paper, we propose an extension that re-incorporates this discarded imaginary component. Our method leverages the full complex-valued representation to create a dual-component attention score. We theoretically and empirically demonstrate that this approach enhances the modeling of long-context dependencies by preserving more positional information. Furthermore, evaluations on a suite of long-context language modeling benchmarks show that our method consistently improves performance over the standard RoPE, with the benefits becoming more significant as context length increases. The code is available at https://github.com/OpenMOSS/rope_pp.
PDF502December 10, 2025