ChatPaper.aiChatPaper

За пределами реальности: мнимое расширение ротационных позиционных эмбеддингов для LLM с длинным контекстом

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

December 8, 2025
Авторы: Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu
cs.AI

Аннотация

Вращательные позиционные эмбеддинги (RoPE) стали стандартом для кодирования порядка последовательностей в больших языковых моделях (LLM) путем применения вращений к векторам запросов и ключей в комплексной плоскости. Однако стандартные реализации используют только вещественную компоненту комплексного скалярного произведения для вычисления оценок внимания. Это упрощение отбрасывает мнимую компоненту, которая содержит ценную фазовую информацию, что приводит к потенциальной потере реляционных деталей, важных для моделирования длинных контекстных зависимостей. В данной статье мы предлагаем расширение, которое повторно включает эту отброшенную мнимую компоненту. Наш метод использует полное комплексное представление для создания двухкомпонентной оценки внимания. Теоретически и эмпирически мы демонстрируем, что данный подход улучшает моделирование длинных контекстных зависимостей за счет сохранения большего количества позиционной информации. Кроме того, оценки на наборе бенчмарков языкового моделирования с длинным контекстом показывают, что наш метод стабильно улучшает производительность по сравнению со стандартным RoPE, причем преимущества становятся более значительными с увеличением длины контекста. Код доступен по адресу https://github.com/OpenMOSS/rope_pp.
English
Rotary Position Embeddings (RoPE) have become a standard for encoding sequence order in Large Language Models (LLMs) by applying rotations to query and key vectors in the complex plane. Standard implementations, however, utilize only the real component of the complex-valued dot product for attention score calculation. This simplification discards the imaginary component, which contains valuable phase information, leading to a potential loss of relational details crucial for modeling long-context dependencies. In this paper, we propose an extension that re-incorporates this discarded imaginary component. Our method leverages the full complex-valued representation to create a dual-component attention score. We theoretically and empirically demonstrate that this approach enhances the modeling of long-context dependencies by preserving more positional information. Furthermore, evaluations on a suite of long-context language modeling benchmarks show that our method consistently improves performance over the standard RoPE, with the benefits becoming more significant as context length increases. The code is available at https://github.com/OpenMOSS/rope_pp.
PDF502December 10, 2025