ChatPaper.aiChatPaper

DoPE: 노이즈 제거 회전 위치 임베딩

DoPE: Denoising Rotary Position Embedding

November 12, 2025
저자: Jing Xiong, Liyang Fan, Hui Shen, Zunhai Su, Min Yang, Lingpeng Kong, Ngai Wong
cs.AI

초록

Transformer 모델에서의 회전 위치 임베딩(RoPE)은 길이 외삽을 약화시키는 본질적인 한계를 가지고 있다. 우리는 위치 인코딩이 포함된 어텐션 맵을 노이즈가 있는 특징 맵으로 재해석하고, 특징 맵에서 이상 주파수 대역을 탐지하기 위해 절단 행렬 엔트로피를 기반으로 한 학습이 필요 없는 방법인 Denoising Positional Encoding(DoPE)을 제안한다. 특징 맵의 노이즈 특성을 활용하여, 우리는 이를 매개변수가 없는 가우시안 분포로 재매개변수화하여 강력한 외삽을 달성한다. 우리의 방법은 이론적으로 어텐션 싱크 현상의 근본적인 원인과 절단 행렬 엔트로피와의 연결을 밝힌다. 바늘을 찾는 작업과 다수 샷 인-컨텍스트 학습 작업에 대한 실험은 DoPE가 확장된 컨텍스트(최대 64K 토큰)에서 검색 정확도와 추론 안정성을 크게 향상시킴을 보여준다. 결과는 위치 임베딩에 대한 노이즈 제거 전략이 어텐션 싱크를 효과적으로 완화하고 균형 잡힌 어텐션 패턴을 복원하여 길이 일반화를 개선하는 간단하지만 강력한 해결책을 제공함을 보여준다. 우리의 프로젝트 페이지는 https://The-physical-picture-of-LLMs.github.io이다.
English
Rotary Position Embedding (RoPE) in Transformer models has inherent limits that weaken length extrapolation. We reinterpret the attention map with positional encoding as a noisy feature map, and propose Denoising Positional Encoding (DoPE), a training-free method based on truncated matrix entropy to detect outlier frequency bands in the feature map. Leveraging the noise characteristics of the feature map, we further reparameterize it with a parameter-free Gaussian distribution to achieve robust extrapolation. Our method theoretically reveals the underlying cause of the attention sink phenomenon and its connection to truncated matrix entropy. Experiments on needle-in-a-haystack and many-shot in-context learning tasks demonstrate that DoPE significantly improves retrieval accuracy and reasoning stability across extended contexts (up to 64K tokens). The results show that the denoising strategy for positional embeddings effectively mitigates attention sinks and restores balanced attention patterns, providing a simple yet powerful solution for improving length generalization. Our project page is Project: https://The-physical-picture-of-LLMs.github.io
PDF607November 18, 2025