DoPE: Denoising Rotary Position Embedding
DoPE: Denoising Rotary Position Embedding
November 12, 2025
papers.authors: Jing Xiong, Liyang Fan, Hui Shen, Zunhai Su, Min Yang, Lingpeng Kong, Ngai Wong
cs.AI
papers.abstract
Rotary Position Embedding (RoPE) in Transformer-Modellen weist inhärente Grenzen auf, die die Längenextrapolation schwächen. Wir interpretieren die Aufmerksamkeitskarte mit Positionskodierung als eine verrauschte Merkmalskarte und schlagen Denoising Positional Encoding (DoPE) vor, eine trainingsfreie Methode basierend auf der Entropie einer abgeschnittenen Matrix, um Ausreißer-Frequenzbänder in der Merkmalskarte zu erkennen. Indem wir die Rauscheigenschaften der Merkmalskarte nutzen, parametrisieren wir sie weiter mit einer parameterfreien Gaußschen Verteilung um robuste Extrapolation zu erreichen. Unsere Methode deckt theoretisch die zugrunde liegende Ursache des Attention-Sink-Phänomens und dessen Zusammenhang mit der Entropie einer abgeschnittenen Matrix auf. Experimente zu „Needle-in-a-Haystack“- und Many-Shot-In-Context-Learning-Aufgaben zeigen, dass DoPE die Retrieval-Genauigkeit und die Stabilität des Schlussfolgerns über erweiterte Kontexte (bis zu 64K Tokens) signifikant verbessert. Die Ergebnisse zeigen, dass die Denoising-Strategie für Positions-Einbettungen Attention Sinks effektiv mildert und ausgewogene Aufmerksamkeitsmuster wiederherstellt, wodurch eine einfache, aber leistungsstarke Lösung zur Verbesserung der Längengeneralisierung bereitgestellt wird. Unsere Projektseite ist Project: https://The-physical-picture-of-LLMs.github.io.
English
Rotary Position Embedding (RoPE) in Transformer models has inherent limits that weaken length extrapolation. We reinterpret the attention map with positional encoding as a noisy feature map, and propose Denoising Positional Encoding (DoPE), a training-free method based on truncated matrix entropy to detect outlier frequency bands in the feature map. Leveraging the noise characteristics of the feature map, we further reparameterize it with a parameter-free Gaussian distribution to achieve robust extrapolation. Our method theoretically reveals the underlying cause of the attention sink phenomenon and its connection to truncated matrix entropy. Experiments on needle-in-a-haystack and many-shot in-context learning tasks demonstrate that DoPE significantly improves retrieval accuracy and reasoning stability across extended contexts (up to 64K tokens). The results show that the denoising strategy for positional embeddings effectively mitigates attention sinks and restores balanced attention patterns, providing a simple yet powerful solution for improving length generalization. Our project page is Project: https://The-physical-picture-of-LLMs.github.io