ChatPaper.aiChatPaper

DoPE: Denoising dell'Embedding Posizionale Rotatorio

DoPE: Denoising Rotary Position Embedding

November 12, 2025
Autori: Jing Xiong, Liyang Fan, Hui Shen, Zunhai Su, Min Yang, Lingpeng Kong, Ngai Wong
cs.AI

Abstract

L'Embedding Posizionale Rotary (RoPE) nei modelli Transformer presenta limiti intrinseci che indeboliscono l'estrapolazione di lunghezza. Reinterpretiamo la mappa di attenzione con codifica posizionale come una mappa di feature rumorosa e proponiamo Denoising Positional Encoding (DoPE), un metodo senza training basato sull'entropia di matrice troncata per rilevare bande di frequenza anomale nella mappa di feature. Sfruttando le caratteristiche di rumore della mappa di feature, la riparametrizziamo ulteriormente con una distribuzione Gaussiana senza parametri per ottenere un'estrapolazione robusta. Il nostro metodo rivela teoricamente la causa sottostante del fenomeno dell'attention sink e la sua connessione con l'entropia di matrice troncata. Esperimenti su task di needle-in-a-haystack e di apprendimento in contesto many-shot dimostrano che DoPE migliora significativamente l'accuratezza di recupero e la stabilità del ragionamento in contesti estesi (fino a 64K token). I risultati mostrano che la strategia di denoising per gli embedding posizionali mitiga efficacemente gli attention sink e ripristina pattern di attenzione bilanciati, fornendo una soluzione semplice ma potente per migliorare la generalizzazione di lunghezza. La nostra pagina del progetto è: https://The-physical-picture-of-LLMs.github.io
English
Rotary Position Embedding (RoPE) in Transformer models has inherent limits that weaken length extrapolation. We reinterpret the attention map with positional encoding as a noisy feature map, and propose Denoising Positional Encoding (DoPE), a training-free method based on truncated matrix entropy to detect outlier frequency bands in the feature map. Leveraging the noise characteristics of the feature map, we further reparameterize it with a parameter-free Gaussian distribution to achieve robust extrapolation. Our method theoretically reveals the underlying cause of the attention sink phenomenon and its connection to truncated matrix entropy. Experiments on needle-in-a-haystack and many-shot in-context learning tasks demonstrate that DoPE significantly improves retrieval accuracy and reasoning stability across extended contexts (up to 64K tokens). The results show that the denoising strategy for positional embeddings effectively mitigates attention sinks and restores balanced attention patterns, providing a simple yet powerful solution for improving length generalization. Our project page is Project: https://The-physical-picture-of-LLMs.github.io
PDF607November 18, 2025