Oltre il reale: estensione immaginaria degli embedding posizionali rotativi per LLM a contesto lungo
Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs
December 8, 2025
Autori: Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu
cs.AI
Abstract
Gli Embedding Posizionali Rotazionali (RoPE) sono diventati uno standard per codificare l'ordine sequenziale nei Large Language Model (LLM) applicando rotazioni ai vettori query e key nel piano complesso. Le implementazioni standard, tuttavia, utilizzano solo la componente reale del prodotto scalare a valori complessi per il calcolo del punteggio di attenzione. Questa semplificazione scarta la componente immaginaria, che contiene preziose informazioni di fase, portando a una potenziale perdita di dettagli relazionali cruciali per la modellazione di dipendenze a contesto lungo. In questo articolo, proponiamo un'estensione che re-incorpora questa componente immaginaria scartata. Il nostro metodo sfrutta la rappresentazione complessa completa per creare un punteggio di attenzione a doppia componente. Dimostriamo teoricamente ed empiricamente che questo approccio migliora la modellazione delle dipendenze a contesto lungo preservando maggiori informazioni posizionali. Inoltre, le valutazioni su una serie di benchmark di modellazione linguistica a contesto lungo mostrano che il nostro metodo migliora costantemente le prestazioni rispetto al RoPE standard, con benefici che diventano più significativi all'aumentare della lunghezza del contesto. Il codice è disponibile all'indirizzo https://github.com/OpenMOSS/rope_pp.
English
Rotary Position Embeddings (RoPE) have become a standard for encoding sequence order in Large Language Models (LLMs) by applying rotations to query and key vectors in the complex plane. Standard implementations, however, utilize only the real component of the complex-valued dot product for attention score calculation. This simplification discards the imaginary component, which contains valuable phase information, leading to a potential loss of relational details crucial for modeling long-context dependencies. In this paper, we propose an extension that re-incorporates this discarded imaginary component. Our method leverages the full complex-valued representation to create a dual-component attention score. We theoretically and empirically demonstrate that this approach enhances the modeling of long-context dependencies by preserving more positional information. Furthermore, evaluations on a suite of long-context language modeling benchmarks show that our method consistently improves performance over the standard RoPE, with the benefits becoming more significant as context length increases. The code is available at https://github.com/OpenMOSS/rope_pp.