KV-CoRE: LLM KV 캐시의 데이터 의존적 저순위 압축 가능성 벤치마킹
KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs
February 5, 2026
저자: Jian Chen, Zhuoran Wang, Jiayu Qin, Ming Li, Meng Wang, Changyou Chen, Yin Chen, Qizhen Weng, Yirui Liu
cs.AI
초록
대규모 언어 모델은 자기회귀 디코딩 과정에서 중복 계산을 피하기 위해 kv 캐시에 의존하지만, 컨텍스트 길이가 증가함에 따라 캐시 읽기 및 쓰기 작업이 GPU 메모리 대역폭을 빠르게 포화시킬 수 있습니다. 최근 연구들은 KV 캐시 압축을 탐구해 왔으나, 대부분의 접근법은 kv 캐시의 데이터 의존적 특성과 계층별 변동성을 간과합니다. 본 연구에서는 kv 캐시의 데이터 의존적 저랭크 압축 가능성을 정량화하는 SVD 기반 방법인 KV-CoRE(KV-cache Compressibility by Rank Evaluation)를 소개합니다. KV-CoRE는 프로베니우스 놈(Frobenius norm) 기준 최적의 저랭크 근사치를 계산하며, 그래디언트 불필요 및 점진적 특성으로 인해 효율적인 데이터셋 수준의 계층별 평가를 가능하게 합니다. 이 방법을 활용하여 다섯 개 영어 도메인과 열여섯 개 언어에 걸친 여러 모델과 데이터셋을 분석함으로써, 압축 가능성과 모델 아키텍처, 훈련 데이터, 언어 커버리지 간의 체계적인 패턴을 발견했습니다. 이러한 분석 과정에서 압축 가능성 지표로 정규화 유효 랭크(Normalized Effective Rank)를 채택하였으며, 이 지표가 압축 하의 성능 저하와 강한 상관관계를 보임을 입증했습니다. 본 연구는 LLM의 kv 캐시 압축 가능성에 대한 원칙적인 평가 프레임워크와 최초의 대규모 벤치마크를 구축하여, 동적이고 데이터 인식형 압축 및 데이터 중심 모델 개발에 대한 통찰을 제공합니다.
English
Large language models rely on kv-caches to avoid redundant computation during autoregressive decoding, but as context length grows, reading and writing the cache can quickly saturate GPU memory bandwidth. Recent work has explored KV-cache compression, yet most approaches neglect the data-dependent nature of kv-caches and their variation across layers. We introduce KV-CoRE KV-cache Compressibility by Rank Evaluation), an SVD-based method for quantifying the data-dependent low-rank compressibility of kv-caches. KV-CoRE computes the optimal low-rank approximation under the Frobenius norm and, being gradient-free and incremental, enables efficient dataset-level, layer-wise evaluation. Using this method, we analyze multiple models and datasets spanning five English domains and sixteen languages, uncovering systematic patterns that link compressibility to model architecture, training data, and language coverage. As part of this analysis, we employ the Normalized Effective Rank as a metric of compressibility and show that it correlates strongly with performance degradation under compression. Our study establishes a principled evaluation framework and the first large-scale benchmark of kv-cache compressibility in LLMs, offering insights for dynamic, data-aware compression and data-centric model development.