CoPE: RoPE troncata come soluzione scalabile a costo zero per LLM a contesto lungo

Abstract

L'Embedding Posizionale Rotazionale (RoPE) è un componente chiave del ridimensionamento del contesto nei Large Language Model (LLM). Sebbene siano stati proposti vari metodi per adattare il RoPE a contesti più lunghi, i loro principi guida ricadono generalmente in due categorie: (1) mitigazione dell'out-of-distribution (OOD), che scala le frequenze del RoPE per accomodare posizioni non viste, e (2) Modellazione Semantica, che postula che i punteggi di attenzione calcolati con il RoPE dovrebbero sempre privilegiare i token semanticamente simili. In questo lavoro, unifichiamo questi obiettivi apparentemente distinti attraverso un intervento minimalista, denominato CoPE: soft clipping delle componenti a bassa frequenza del RoPE. CoPE non solo elimina gli outlier OOD e affina i segnali semantici, ma previene anche la dispersione spettrale causata dall'hard clipping. Esperimenti estensivi dimostrano che l'applicazione della nostra strategia di soft clipping al RoPE produce significativi miglioramenti delle prestazioni che si estendono fino a lunghezze di contesto di 256k, convalidando la nostra analisi teorica e stabilendo CoPE come un nuovo stato dell'arte per la generalizzazione della lunghezza. Il nostro codice, dati e modelli sono disponibili all'indirizzo https://github.com/hrlics/CoPE.

English

Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.

CoPE: RoPE troncata come soluzione scalabile a costo zero per LLM a contesto lungo

CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs

Abstract

Support