CoPE : RoPE tronquée, une amélioration évolutive sans coût pour les LLM à contexte long
CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs
February 5, 2026
papers.authors: Haoran Li, Sucheng Ren, Alan Yuille, Feng Wang
cs.AI
papers.abstract
L'encodage positionnel rotationnel (RoPE) est un composant clé de l'extension du contexte dans les grands modèles de langage (LLM). Bien que diverses méthodes aient été proposées pour adapter RoPE à des contextes plus longs, leurs principes directeurs se répartissent généralement en deux catégories : (1) l'atténuation des données hors distribution (OOD), qui ajuste les fréquences de RoPE pour accommoder les positions non vues, et (2) la modélisation sémantique, qui postule que les scores d'attention calculés avec RoPE devraient toujours privilégier les tokens sémantiquement similaires. Dans ce travail, nous unifions ces objectifs apparemment distincts par une intervention minimaliste, à savoir CoPE : l'écrêtage doux des composantes basse fréquence de RoPE. CoPE élimine non seulement les valeurs aberrantes OOD et affine les signaux sémantiques, mais prévient également les fuites spectrales causées par l'écrêtage dur. Des expériences approfondies démontrent que l'application simple de notre stratégie d'écrêtage doux à RoPE produit des gains de performance significatifs qui s'étendent jusqu'à une longueur de contexte de 256k, validant notre analyse théorique et établissant CoPE comme un nouvel état de l'art pour la généralisation en longueur. Notre code, données et modèles sont disponibles à l'adresse https://github.com/hrlics/CoPE.
English
Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.