CoPE: RoPE Recortada como um Benefício Escalável sem Custos para LLMs de Contexto Longo
CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs
February 5, 2026
Autores: Haoran Li, Sucheng Ren, Alan Yuille, Feng Wang
cs.AI
Resumo
O Embedding Posicional Rotacional (RoPE) é um componente fundamental da escalagem de contexto em Modelos de Linguagem de Grande Porte (LLMs). Embora vários métodos tenham sido propostos para adaptar o RoPE a contextos mais longos, seus princípios orientadores geralmente se enquadram em duas categorias: (1) mitigação de dados fora da distribuição (OOD), que escala as frequências do RoPE para acomendar posições não vistas, e (2) Modelagem Semântica, que postula que os escores de atenção calculados com o RoPE devem sempre priorizar tokens semanticamente similares. Neste trabalho, unificamos esses objetivos aparentemente distintos através de uma intervenção minimalista, denominada CoPE: recorte suave (*soft clipping*) dos componentes de baixa frequência do RoPE. O CoPE não apenas elimina valores atípicos OOD e refina os sinais semânticos, mas também previne o vazamento espectral causado pelo recorte rígido (*hard clipping*). Experimentos extensivos demonstram que a simples aplicação da nossa estratégia de recorte suave ao RoPE produz ganhos significativos de desempenho que escalam até comprimentos de contexto de 256k, validando nossa análise teórica e estabelecendo o CoPE como um novo estado da arte para generalização de comprimento. Nosso código, dados e modelos estão disponíveis em https://github.com/hrlics/CoPE.
English
Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.