CoPE: Gekapptes RoPE als skalierbarer Gratisvorteil für LLMs mit langem Kontext
CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs
February 5, 2026
papers.authors: Haoran Li, Sucheng Ren, Alan Yuille, Feng Wang
cs.AI
papers.abstract
Rotary Positional Embedding (RoPE) ist eine Schlüsselkomponente für die Kontextskalierung in Large Language Models (LLMs). Während verschiedene Methoden vorgeschlagen wurden, um RoPE an längere Kontexte anzupassen, lassen sich ihre Leitprinzipien generell in zwei Kategorien einteilen: (1) Out-of-Distribution (OOD)-Abschwächung, die RoPE-Frequenzen skaliert, um ungesehene Positionen zu berücksichtigen, und (2) Semantische Modellierung, die postuliert, dass die mit RoPE berechneten Aufmerksamkeitswerte stets semantisch ähnliche Tokens priorisieren sollten. In dieser Arbeit vereinen wir diese scheinbar unterschiedlichen Ziele durch eine minimalistisch Intervention, nämlich CoPE: weiches Clippen der niederfrequenten Komponenten von RoPE. CoPE beseitigt nicht nur OOD-Ausreißer und verfeinert semantische Signale, sondern verhindert auch spektrale Leckage, die durch hartes Clipping verursacht wird. Umfangreiche Experimente zeigen, dass die einfache Anwendung unserer Soft-Clipping-Strategie auf RoPE signifikante Leistungssteigerungen erbringt, die sich bis zu einer Kontextlänge von 256k skalieren lassen. Dies validiert unsere theoretische Analyse und etabliert CoPE als neuen State-of-the-Art für Längengeneralisierung. Unser Code, Daten und Modelle sind verfügbar unter https://github.com/hrlics/CoPE.
English
Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.