ChatPaper.aiChatPaper

DoPE: Денойзинг ротационного позиционного кодирования

DoPE: Denoising Rotary Position Embedding

November 12, 2025
Авторы: Jing Xiong, Liyang Fan, Hui Shen, Zunhai Su, Min Yang, Lingpeng Kong, Ngai Wong
cs.AI

Аннотация

Встраивание вращательных позиций (Rotary Position Embedding, RoPE) в моделях Transformer имеет внутренние ограничения, которые ослабляют экстраполяцию на длинных последовательностях. Мы переосмысливаем карту внимания с позиционным кодированием как зашумленную карту признаков и предлагаем метод Denoising Positional Encoding (DoPE), не требующий обучения и основанный на усеченной энтропии матрицы для обнаружения выбросов в частотных диапазонах карты признаков. Используя шумовые характеристики карты признаков, мы дополнительно перепараметризуем её с помощью параметрического гауссовского распределения для достижения устойчивой экстраполяции. Наш метод теоретически раскрывает основную причину явления "поглощения внимания" (attention sink) и его связь с усеченной энтропией матрицы. Эксперименты на задачах "иголка в стоге сена" и многошагового обучения в контексте демонстрируют, что DoPE значительно улучшает точность извлечения и стабильность рассуждений на расширенных контекстах (до 64K токенов). Результаты показывают, что стратегия устранения шума для позиционных встраиваний эффективно смягчает поглощение внимания и восстанавливает сбалансированные паттерны внимания, предоставляя простое, но мощное решение для улучшения обобщения на длинных последовательностях. Наша страница проекта доступна по адресу: https://The-physical-picture-of-LLMs.github.io.
English
Rotary Position Embedding (RoPE) in Transformer models has inherent limits that weaken length extrapolation. We reinterpret the attention map with positional encoding as a noisy feature map, and propose Denoising Positional Encoding (DoPE), a training-free method based on truncated matrix entropy to detect outlier frequency bands in the feature map. Leveraging the noise characteristics of the feature map, we further reparameterize it with a parameter-free Gaussian distribution to achieve robust extrapolation. Our method theoretically reveals the underlying cause of the attention sink phenomenon and its connection to truncated matrix entropy. Experiments on needle-in-a-haystack and many-shot in-context learning tasks demonstrate that DoPE significantly improves retrieval accuracy and reasoning stability across extended contexts (up to 64K tokens). The results show that the denoising strategy for positional embeddings effectively mitigates attention sinks and restores balanced attention patterns, providing a simple yet powerful solution for improving length generalization. Our project page is Project: https://The-physical-picture-of-LLMs.github.io
PDF607November 18, 2025