명시적 정보 전송을 통한 문맥 압축
Context Compression via Explicit Information Transmission
February 3, 2026
저자: Jiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao, Yulan He
cs.AI
초록
대규모 언어 모델(LLM)의 장문 컨텍스트 추론은 2차 복잡도의 어텐션과 증가하는 키-값 캐시로 인해 비용이 많이 들어 컨텍스트 압축의 필요성을 부각시킵니다. 본 연구에서는 긴 컨텍스트를 소수의 연속적 표현으로 응축하는 소프트 컵텍스트 압축을 다룹니다. 기존 방법은 일반적으로 LLM 자체를 학습 가능한 압축기로 재활용하며, 계층별 자기 어텐션을 통해 정보를 반복적으로 종합하는 데 의존합니다. 우리는 이러한 패러다임이 두 가지 구조적 한계를 가진다고 주장합니다: (i) 계층 간 점진적인 표현 덮어쓰기, (ii) 토큰 간 압축 용량의 비조정적 할당. 우리는 소프트 압축을 새로운 패러다임, 즉 고정된 LLM 은닉 상태를 통한 명시적 정보 전송으로 공식화하는 경량 프레임워크인 ComprExIT(명시적 정보 전송을 통한 컨텍스트 압축)를 제안합니다. 이는 압축을 모델의 내부적 자기 어텐션 역학으로부터 분리합니다. ComprExIT는 (i) 다층 정보를 토큰 앵커에 선택적으로 전송하여 점진적 덮어쓰기를 완화하는 깊이 방향 전송과, (ii) 전역 최적화된 전송 계획을 통해 앵커들을 소수의 슬롯으로 종합하여 정보의 조정된 할당을 보장하는 너비 방향 전송을 수행합니다. 6개의 질의응답 벤치마크에서 ComprExIT는 약 1%의 추가 매개변수만을 도입하면서도 최신 컨텍스트 압축 방법들을 지속적으로 능가하여, 명시적이고 조정된 정보 전송이 더 효과적이고 강력한 장문 컨텍스트 압축을 가능하게 함을 입증했습니다.
English
Long-context inference with Large Language Models (LLMs) is costly due to quadratic attention and growing key-value caches, motivating context compression. In this work, we study soft context compression, where a long context is condensed into a small set of continuous representations. Existing methods typically re-purpose the LLM itself as a trainable compressor, relying on layer-by-layer self-attention to iteratively aggregate information. We argue that this paradigm suffers from two structural limitations: (i) progressive representation overwriting across layers (ii) uncoordinated allocation of compression capacity across tokens. We propose ComprExIT (Context Compression via Explicit Information Transmission), a lightweight framework that formulates soft compression into a new paradigm: explicit information transmission over frozen LLM hidden states. This decouples compression from the model's internal self-attention dynamics. ComprExIT performs (i) depth-wise transmission to selectively transmit multi-layer information into token anchors, mitigating progressive overwriting, and (ii) width-wise transmission to aggregate anchors into a small number of slots via a globally optimized transmission plan, ensuring coordinated allocation of information. Across six question-answering benchmarks, ComprExIT consistently outperforms state-of-the-art context compression methods while introducing only ~1% additional parameters, demonstrating that explicit and coordinated information transmission enables more effective and robust long-context compression.