DoPE: Incorporação de Posição Rotacional com Redução de Ruído

Resumo

O Rotary Position Embedding (RoPE) em modelos Transformer possui limites intrínsecos que enfraquecem a extrapolação de comprimento. Reinterpretamos o mapa de atenção com codificação posicional como um mapa de características ruidoso e propomos o Denoising Positional Encoding (DoPE), um método livre de treinamento baseado na entropia de matriz truncada para detectar bandas de frequência atípicas no mapa de características. Aproveitando as características de ruído do mapa de características, reparametrizamos ainda mais com uma distribuição Gaussiana sem parâmetros para alcançar uma extrapolação robusta. Nosso método revela teoricamente a causa subjacente do fenômeno de "atenção sumidouro" e sua conexão com a entropia de matriz truncada. Experimentos em tarefas de "agulha no palheiro" e aprendizado contextual com múltiplos exemplos demonstram que o DoPE melhora significativamente a precisão de recuperação e a estabilidade de raciocínio em contextos estendidos (até 64K tokens). Os resultados mostram que a estratégia de redução de ruído para embeddings posicionais mitiga efetivamente os sumidouros de atenção e restaura padrões de atenção equilibrados, fornecendo uma solução simples, porém poderosa, para melhorar a generalização de comprimento. Nossa página do projeto está disponível em: https://The-physical-picture-of-LLMs.github.io.

English

Rotary Position Embedding (RoPE) in Transformer models has inherent limits that weaken length extrapolation. We reinterpret the attention map with positional encoding as a noisy feature map, and propose Denoising Positional Encoding (DoPE), a training-free method based on truncated matrix entropy to detect outlier frequency bands in the feature map. Leveraging the noise characteristics of the feature map, we further reparameterize it with a parameter-free Gaussian distribution to achieve robust extrapolation. Our method theoretically reveals the underlying cause of the attention sink phenomenon and its connection to truncated matrix entropy. Experiments on needle-in-a-haystack and many-shot in-context learning tasks demonstrate that DoPE significantly improves retrieval accuracy and reasoning stability across extended contexts (up to 64K tokens). The results show that the denoising strategy for positional embeddings effectively mitigates attention sinks and restores balanced attention patterns, providing a simple yet powerful solution for improving length generalization. Our project page is Project: https://The-physical-picture-of-LLMs.github.io

DoPE: Incorporação de Posição Rotacional com Redução de Ruído

DoPE: Denoising Rotary Position Embedding

Resumo

Support