CoPE: 장문 컨텍스트 LLM을 위한 확장 가능한 무상 혜택으로서의 클리핑된 RoPE
CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs
February 5, 2026
저자: Haoran Li, Sucheng Ren, Alan Yuille, Feng Wang
cs.AI
초록
로터리 위치 임베딩(RoPE)은 대규모 언어 모델(LLM)의 컨텍스트 확장에서 핵심 구성 요소입니다. 더 긴 컨텍스트에 RoPE를 적용하기 위해 다양한 방법이 제안되었지만, 그 지도 원칙은 일반적으로 두 가지 범주로 나뉩니다: (1) 보지 못한 위치를 수용하기 위해 RoPE 주파수를 조정하는 분포 외(OOD) 문제 완화와 (2) RoPE로 계산된 어텐션 점수가 항상 의미론적으로 유사한 토큰을 우선시해야 한다는 의미 모델링입니다. 본 연구에서는 이러한 겉보기에 다른 목표들을 최소한의 개입, 즉 CoPE(소프트 클리핑을 통한 RoPE 저주파수 구성 요소 조정)를 통해 통합합니다. CoPE는 OOD 이상치를 제거하고 의미 신호를 개선할 뿐만 아니라 하드 클리핑으로 인한 스펙트럼 누설을 방지합니다. 대규모 실험을 통해 RoPE에 우리의 소프트 클리핑 전략을 적용하기만 해도 256k 컨텍스트 길이까지 확장되는 상당한 성능 향상을 얻을 수 있음을 입증하여, 우리의 이론적 분석을 검증하고 CoPE를 길이 일반화를 위한 새로운 최첨단 기술로 확립합니다. 우리의 코드, 데이터 및 모델은 https://github.com/hrlics/CoPE에서 이용 가능합니다.
English
Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.