ChatPaper.aiChatPaper

CoPE: Обрезанный RoPE как масштабируемый бесплатный бонус для LLM с длинным контекстом

CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs

February 5, 2026
Авторы: Haoran Li, Sucheng Ren, Alan Yuille, Feng Wang
cs.AI

Аннотация

Вращательное позиционное кодирование (RoPE) является ключевым компонентом масштабирования контекста в больших языковых моделях (LLM). Хотя было предложено множество методов адаптации RoPE к более длинным контекстам, их руководящие принципы обычно сводятся к двум категориям: (1) смягчение проблемы внераспределенных данных (OOD), которое масштабирует частоты RoPE для работы с непредвиденными позициями, и (2) семантическое моделирование, которое постулирует, что оценки внимания, вычисляемые с помощью RoPE, должны всегда отдавать приоритет семантически схожим токенам. В данной работе мы объединяем эти, казалось бы, различные цели с помощью минималистичного вмешательства — CoPE: мягкого ограничения низкочастотных компонентов RoPE. CoPE не только устраняет OOD-выбросы и уточняет семантические сигналы, но и предотвращает спектральную утечку, вызванную жестким ограничением. Многочисленные эксперименты демонстрируют, что простое применение нашей стратегии мягкого ограничения к RoPE дает значительный прирост производительности, масштабируемый до длины контекста в 256 тыс. токенов, что подтверждает наш теоретический анализ и устанавливает CoPE в качестве нового передового метода обобщения по длине. Наш код, данные и модели доступны по адресу https://github.com/hrlics/CoPE.
English
Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.
PDF42February 7, 2026