ChatPaper.aiChatPaper

DoPE: Denoisende Rotatie Positie-Embedding

DoPE: Denoising Rotary Position Embedding

November 12, 2025
Auteurs: Jing Xiong, Liyang Fan, Hui Shen, Zunhai Su, Min Yang, Lingpeng Kong, Ngai Wong
cs.AI

Samenvatting

Rotary Position Embedding (RoPE) in Transformer-modellen kent inherente beperkingen die de lengte-extrapolatie verzwakken. We herinterpreteren de aandachtmatrix met positionele codering als een ruisachtige kenmerkmatrix en stellen Denoising Positional Encoding (DoPE) voor, een trainingsvrije methode gebaseerd op getrunceerde matrixentropie om uitbijterfrequentiebanden in de kenmerkmatrix te detecteren. Door gebruik te maken van de ruiskarakteristieken van de kenmerkmatrix, herparameteriseren we deze verder met een parameterloze Gaussische verdeling om robuuste extrapolatie te bereiken. Onze methode onthult theoretisch de onderliggende oorzaak van het aandachtssink-fenomeen en de connectie ervan met getrunceerde matrixentropie. Experimenten met naald-in-een-hooiberg- en veelvoudige in-context-leertaken tonen aan dat DoPE de retrievalsnauwkeurigheid en redeneerstabiliteit aanzienlijk verbetert over uitgebreide contexten (tot 64K tokens). De resultaten laten zien dat de ruisonderdrukkingsstrategie voor positionele embeddings aandachtssinks effectief vermindert en gebalanceerde aandachtspatronen herstelt, wat een eenvoudige maar krachtige oplossing biedt voor het verbeteren van lengtegeneralizatie. Onze projectpagina is Project: https://The-physical-picture-of-LLMs.github.io.
English
Rotary Position Embedding (RoPE) in Transformer models has inherent limits that weaken length extrapolation. We reinterpret the attention map with positional encoding as a noisy feature map, and propose Denoising Positional Encoding (DoPE), a training-free method based on truncated matrix entropy to detect outlier frequency bands in the feature map. Leveraging the noise characteristics of the feature map, we further reparameterize it with a parameter-free Gaussian distribution to achieve robust extrapolation. Our method theoretically reveals the underlying cause of the attention sink phenomenon and its connection to truncated matrix entropy. Experiments on needle-in-a-haystack and many-shot in-context learning tasks demonstrate that DoPE significantly improves retrieval accuracy and reasoning stability across extended contexts (up to 64K tokens). The results show that the denoising strategy for positional embeddings effectively mitigates attention sinks and restores balanced attention patterns, providing a simple yet powerful solution for improving length generalization. Our project page is Project: https://The-physical-picture-of-LLMs.github.io
PDF607November 18, 2025