ChatPaper.aiChatPaper

CoPE: Afgeknotte RoPE als een schaalbare meevaller voor LLM's met lange context

CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs

February 5, 2026
Auteurs: Haoran Li, Sucheng Ren, Alan Yuille, Feng Wang
cs.AI

Samenvatting

Rotary Positional Embedding (RoPE) is een cruciaal onderdeel voor het schalen van context in Large Language Models (LLM's). Hoewel diverse methodes zijn voorgesteld om RoPE aan te passen voor langere contexten, vallen hun leidende principes over het algemeen in twee categorieën: (1) *out-of-distribution* (OOD)-mitigatie, waarbij RoPE-frequenties worden geschaald om onzichtbare posities te accommoderen, en (2) Semantische Modellering, die stelt dat de met RoPE berekende aandachtsscores altijd semantisch vergelijkbare tokens moeten prioriteren. In dit werk verenigen we deze ogenschijnlijk verschillende doelstellingen door een minimalistische interventie, namelijk CoPE: het *zacht afkappen* (*soft clipping*) van de laagfrequente componenten van RoPE. CoPE elimineert niet alleen OOD-*outliers* en verfijnt semantische signalen, maar voorkomt ook spectrale lekkage veroorzaakt door hard afkappen. Uitgebreide experimenten tonen aan dat het simpelweg toepassen van onze *soft clipping*-strategie op RoPE aanzienlijke prestatieverbeteringen oplevert die schalen tot een contextlengte van 256k. Dit valideert onze theoretische analyse en vestigt CoPE als een nieuwe state-of-the-art voor lengtegeneralizatie. Onze code, data en modellen zijn beschikbaar op https://github.com/hrlics/CoPE.
English
Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.
PDF43February 7, 2026