Além do Real: Extensão Imaginária de Posicionamentos Rotacionais para LLMs de Contexto Longo

Resumo

As Rotacionais de Posição por Embeddings (RoPE) tornaram-se um padrão para codificar a ordem sequencial em Modelos de Linguagem de Grande Porte (LLMs) através da aplicação de rotações aos vetores de consulta e chave no plano complexo. As implementações padrão, no entanto, utilizam apenas o componente real do produto escalar de valor complexo para o cálculo da pontuação de atenção. Esta simplificação descarta o componente imaginário, que contém valiosas informações de fase, levando a uma potencial perda de detalhes relacionais cruciais para modelar dependências de contexto longo. Neste artigo, propomos uma extensão que reincorpora este componente imaginário descartado. O nosso método aproveita a representação complexa completa para criar uma pontuação de atenção de componente duplo. Demonstramos teórica e empiricamente que esta abordagem melhora a modelagem de dependências de contexto longo através da preservação de mais informações posicionais. Adicionalmente, avaliações numa série de benchmarks de modelagem de linguagem de contexto longo mostram que o nosso método melhora consistentemente o desempenho em relação ao RoPE padrão, com os benefícios a tornarem-se mais significativos à medida que o comprimento do contexto aumenta. O código está disponível em https://github.com/OpenMOSS/rope_pp.

English

Rotary Position Embeddings (RoPE) have become a standard for encoding sequence order in Large Language Models (LLMs) by applying rotations to query and key vectors in the complex plane. Standard implementations, however, utilize only the real component of the complex-valued dot product for attention score calculation. This simplification discards the imaginary component, which contains valuable phase information, leading to a potential loss of relational details crucial for modeling long-context dependencies. In this paper, we propose an extension that re-incorporates this discarded imaginary component. Our method leverages the full complex-valued representation to create a dual-component attention score. We theoretically and empirically demonstrate that this approach enhances the modeling of long-context dependencies by preserving more positional information. Furthermore, evaluations on a suite of long-context language modeling benchmarks show that our method consistently improves performance over the standard RoPE, with the benefits becoming more significant as context length increases. The code is available at https://github.com/OpenMOSS/rope_pp.