ChatPaper.aiChatPaper

CoPE: 長文脈LLMのためのスケーラブルなフリーランチとしてのクリップ付きRoPE

CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs

February 5, 2026
著者: Haoran Li, Sucheng Ren, Alan Yuille, Feng Wang
cs.AI

要旨

Rotary Positional Embedding (RoPE) は大規模言語モデル (LLM) における文脈長拡張の重要な構成要素である。RoPEをより長い文脈に適応させるための様々な手法が提案されているが、それらの指導原理は概ね2つのカテゴリに分類される。(1) 未見の位置を扱えるようにRoPEの周波数を調整する、分布外 (OOD) 問題の緩和と、(2) RoPEで計算される注意スコアは常に意味的に類似したトークンを優先すべきであると仮定する意味的モデリングである。本研究では、これら一見異なる目的を、最小限の介入、すなわちCoPE: RoPEの低周波数成分のソフトクリッピングによって統合する。CoPEはOOD外れ値を除去し意味的シグナルを改善するだけでなく、ハードクリッピングによって引き起こされるスペクトル漏れも防止する。大規模な実験により、我々のソフトクリッピング戦略をRoPEに適用するだけで、256kの文脈長にまでスケールする顕著な性能向上が得られることが実証され、理論分析を裏付けるとともに、CoPEが長さ一般化における新たなstate-of-the-artを確立するものである。コード、データ、モデルはhttps://github.com/hrlics/CoPE で公開されている。
English
Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.
PDF42February 7, 2026