ChatPaper.aiChatPaper

KV 캐시 압축의 함정

The Pitfalls of KV Cache Compression

September 30, 2025
저자: Alex Chen, Renato Geh, Aditya Grover, Guy Van den Broeck, Daniel Israel
cs.AI

초록

KV 캐시 압축은 성능 저하를 최소화하면서 처리량과 효율성을 높일 수 있는 가능성을 제시합니다. 처리량 증가는 명백하며, 최근 연구에서는 특정 벤치마크에서 최소한의 성능 저하를 보여주었지만, 다중 명령어 프롬프팅과 같은 실제 시나리오에서의 압축 영향은 충분히 연구되지 않았습니다. 본 논문에서는 KV 캐시 압축된 대형 언어 모델(LLM)을 배포할 때 실무자가 주의해야 할 몇 가지 문제점을 식별합니다. 특히, 특정 명령어는 압축에 따라 훨씬 더 빠르게 성능이 저하되어 LLM이 이를 완전히 무시하게 되는 현상을 보여줍니다. 이를 실질적으로 보여주는 예로, 시스템 프롬프트 누출을 사례 연구로 제시하며, 압축이 누출 및 일반 명령어 수행에 미치는 영향을 실증적으로 보여줍니다. 프롬프트 누출에 영향을 미치는 몇 가지 요인을 제시합니다: 압축 방법, 명령어 순서, 그리고 KV 캐시 제거 편향. 이후, 이러한 요인의 영향을 줄이고 다중 명령어 작업에서 전반적인 성능을 개선할 수 있는 간단한 KV 캐시 제거 정책 변경을 제안합니다.
English
KV cache compression promises increased throughput and efficiency with negligible loss in performance. While the gains in throughput are indisputable and recent literature has indeed shown minimal degradation on particular benchmarks, in general the consequences of compression in realistic scenarios such as multi-instruction prompting have been insufficiently studied. In this paper, we identify several pitfalls practitioners should be aware of when deploying KV cache compressed LLMs. Importantly, we show that certain instructions degrade much more rapidly with compression, effectively causing them to be completely ignored by the LLM. As a practical example of that, we highlight system prompt leakage as a case study, empirically showing the impact of compression on leakage and general instruction following. We show several factors that play a role in prompt leakage: compression method, instruction order, and KV eviction bias. We then propose simple changes to KV cache eviction policies that can reduce the impact of these factors and improve the overall performance in multi-instruction tasks.
PDF62February 7, 2026