ChatPaper.aiChatPaper

DoPE: Incrustación de Posición Rotacional con Eliminación de Ruido

DoPE: Denoising Rotary Position Embedding

November 12, 2025
Autores: Jing Xiong, Liyang Fan, Hui Shen, Zunhai Su, Min Yang, Lingpeng Kong, Ngai Wong
cs.AI

Resumen

El Embedding de Posición Rotatoria (RoPE) en modelos Transformer tiene límites inherentes que debilitan la extrapolación de longitud. Reinterpretamos el mapa de atención con codificación posicional como un mapa de características ruidoso y proponemos Denoising Positional Encoding (DoPE), un método sin entrenamiento basado en la entropía de matriz truncada para detectar bandas de frecuencia atípicas en el mapa de características. Aprovechando las características de ruido del mapa de características, lo reparametrizamos adicionalmente con una distribución Gaussiana sin parámetros para lograr una extrapolación robusta. Nuestro método revela teóricamente la causa subyacente del fenómeno del sumidero de atención y su conexión con la entropía de matriz truncada. Los experimentos en tareas de aprendizaje en contexto de "aguja en un pajar" y de muchos ejemplos demuestran que DoPE mejora significativamente la precisión de recuperación y la estabilidad del razonamiento en contextos extendidos (hasta 64K tokens). Los resultados muestran que la estrategia de eliminación de ruido para los embeddings posicionales mitiga eficazmente los sumideros de atención y restaura patrones de atención equilibrados, proporcionando una solución simple pero poderosa para mejorar la generalización de longitud. Nuestra página del proyecto es: https://The-physical-picture-of-LLMs.github.io.
English
Rotary Position Embedding (RoPE) in Transformer models has inherent limits that weaken length extrapolation. We reinterpret the attention map with positional encoding as a noisy feature map, and propose Denoising Positional Encoding (DoPE), a training-free method based on truncated matrix entropy to detect outlier frequency bands in the feature map. Leveraging the noise characteristics of the feature map, we further reparameterize it with a parameter-free Gaussian distribution to achieve robust extrapolation. Our method theoretically reveals the underlying cause of the attention sink phenomenon and its connection to truncated matrix entropy. Experiments on needle-in-a-haystack and many-shot in-context learning tasks demonstrate that DoPE significantly improves retrieval accuracy and reasoning stability across extended contexts (up to 64K tokens). The results show that the denoising strategy for positional embeddings effectively mitigates attention sinks and restores balanced attention patterns, providing a simple yet powerful solution for improving length generalization. Our project page is Project: https://The-physical-picture-of-LLMs.github.io
PDF607November 18, 2025