ChatPaper.aiChatPaper

DoPE: ノイズ除去型ロータリ位置埋め込み

DoPE: Denoising Rotary Position Embedding

November 12, 2025
著者: Jing Xiong, Liyang Fan, Hui Shen, Zunhai Su, Min Yang, Lingpeng Kong, Ngai Wong
cs.AI

要旨

TransformerモデルにおけるRotary Position Embedding(RoPE)には、長さの外挿を弱める固有の限界が存在する。本研究では、位置エンコーディングを伴うアテンションマップをノイジーな特徴マップとして再解釈し、特徴マップ内の外れ値周波数帯域を検出するための、切り捨て行列エントロピーに基づくトレーニング不要の手法であるDenoising Positional Encoding(DoPE)を提案する。特徴マップのノイズ特性を活用し、さらにパラメータフリーなガウス分布で再パラメータ化することで、ロバストな外挿を実現する。本手法は、アテンションシンク現象の根本的な原因と、それが切り捨て行列エントロピーとどのように関連しているかを理論的に明らかにする。針を干し草の山から探すタスクや多数ショットのインコンテキスト学習タスクにおける実験により、DoPEが拡張されたコンテキスト(最大64Kトークン)において検索精度と推論の安定性を大幅に向上させることが示された。結果は、位置埋め込みに対するノイズ除去戦略がアテンションシンクを効果的に緩和し、バランスの取れたアテンションパターンを回復させることで、長さの一般化を改善するためのシンプルかつ強力なソリューションを提供することを示している。プロジェクトページは以下:Project: https://The-physical-picture-of-LLMs.github.io
English
Rotary Position Embedding (RoPE) in Transformer models has inherent limits that weaken length extrapolation. We reinterpret the attention map with positional encoding as a noisy feature map, and propose Denoising Positional Encoding (DoPE), a training-free method based on truncated matrix entropy to detect outlier frequency bands in the feature map. Leveraging the noise characteristics of the feature map, we further reparameterize it with a parameter-free Gaussian distribution to achieve robust extrapolation. Our method theoretically reveals the underlying cause of the attention sink phenomenon and its connection to truncated matrix entropy. Experiments on needle-in-a-haystack and many-shot in-context learning tasks demonstrate that DoPE significantly improves retrieval accuracy and reasoning stability across extended contexts (up to 64K tokens). The results show that the denoising strategy for positional embeddings effectively mitigates attention sinks and restores balanced attention patterns, providing a simple yet powerful solution for improving length generalization. Our project page is Project: https://The-physical-picture-of-LLMs.github.io
PDF607November 18, 2025