ChatPaper.aiChatPaper

Fast KVzip: 게이트 KV 축출을 통한 효율적이고 정확한 LLM 추론

Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction

January 25, 2026
저자: Jang-Hyun Kim, Dongyoon Han, Sangdoo Yun
cs.AI

초록

효과적인 키-값(KV) 캐시 관리 기술은 대규모 언어 모델(LLM)의 실용적 배포에 핵심적이지만, 기존 압축 기법들은 일반적으로 성능 저하와 계산 오버헤드 사이의 트레이드오프를 수반합니다. 본 연구에서는 고정 가중치 LLM을 위한 새로운 게이팅 기반 KV 캐시 축출 방식을 제안하며, 이는 미미한 계산 비용으로 높은 압축률을 달성합니다. 우리의 접근법은 경량화된 싱크-어텐션 게이팅 모듈을 도입하여 핵심적인 KV 쌍을 식별하고 보존하며, 프리필 단계와 디코딩 단계 모두에 원활하게 통합됩니다. 제안된 게이트 학습 알고리즘은 LLM의 순전파에 기반하여 고비용의 역전파를 회피하면서도, 태스크-불변 재구성 목표를 통해 강력한 태스크 일반화 성능을 얻습니다. Qwen2.5-1M, Qwen3, Gemma3 모델 패밀리에서 수행한 폭넓은 실험 결과, 우리의 방법은 KV 캐시의 최대 70%를 축출하면서도 무손실에 가까운 성능을 유지함을 보여줍니다. 이러한 결과는 장문 맥락 이해, 코드 이해, 수학적 추론 등 다양한 태스크에서 일관되게 관찰되어 우리 접근법의 일반성을 입증합니다.
English
Efficient key-value (KV) cache management is crucial for the practical deployment of large language models (LLMs), yet existing compression techniques often incur a trade-off between performance degradation and computational overhead. We propose a novel gating-based KV cache eviction method for frozen-weight LLMs that achieves high compression ratios with negligible computational cost. Our approach introduces lightweight sink-attention gating modules to identify and retain critical KV pairs, and integrates seamlessly into both the prefill and decoding stages. The proposed gate training algorithm relies on forward passes of an LLM, avoiding expensive backpropagation, while achieving strong task generalization through a task-agnostic reconstruction objective. Extensive experiments across the Qwen2.5-1M, Qwen3, and Gemma3 families show that our method maintains near-lossless performance while evicting up to 70% of the KV cache. The results are consistent across a wide range of tasks, including long-context understanding, code comprehension, and mathematical reasoning, demonstrating the generality of our approach.
PDF42February 3, 2026