CoPE: RoPE Recortado como una Mejora Escalable sin Coste Adicional para LLMs de Contexto Largo
CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs
February 5, 2026
Autores: Haoran Li, Sucheng Ren, Alan Yuille, Feng Wang
cs.AI
Resumen
El Embedding Posicional Rotatorio (RoPE) es un componente clave del escalado de contexto en los Modelos de Lenguaje Grandes (LLMs). Si bien se han propuesto varios métodos para adaptar RoPE a contextos más largos, sus principios rectores generalmente se engloban en dos categorías: (1) la mitigación de valores fuera de distribución (OOD), que escala las frecuencias de RoPE para acomodar posiciones no vistas, y (2) el Modelado Semántico, que postula que las puntuaciones de atención calculadas con RoPE siempre deben priorizar tokens semánticamente similares. En este trabajo, unificamos estos objetivos aparentemente distintos mediante una intervención minimalista, denominada CoPE: recorte suave de los componentes de baja frecuencia de RoPE. CoPE no solo elimina los valores atípicos OOD y refina las señales semánticas, sino que también previene la fuga espectral causada por el recorte brusco. Experimentos exhaustivos demuestran que simplemente aplicando nuestra estrategia de recorte suave a RoPE se obtienen ganancias de rendimiento significativas que escalan hasta longitudes de contexto de 256k, validando nuestro análisis teórico y estableciendo a CoPE como un nuevo estado del arte para la generalización de longitud. Nuestro código, datos y modelos están disponibles en https://github.com/hrlics/CoPE.
English
Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.