明示的情報伝送による文脈圧縮
Context Compression via Explicit Information Transmission
February 3, 2026
著者: Jiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao, Yulan He
cs.AI
要旨
大規模言語モデル(LLM)における長文脈推論は、注意機構の計算量が文長の二乗に比例することや、キー・バリューキャッシュの肥大化に伴いコストが高く、文脈圧縮の動機となっている。本研究では、長い文脈を少数の連続的表現に凝縮する「ソフト文脈圧縮」に着目する。既存手法では、通常、LLM自体を学習可能な圧縮器として流用し、層ごとの自己注意機構を用いて情報を反復的に集約する。我々は、このパラダイムが2つの構造的限界、(i)層を跨ぐ進行的な表現の上書き、(ii)トークン間での圧縮容量の非協調的配分、を有すると主張する。本論文では、ComprExIT(明示的情報伝達による文脈圧縮)を提案する。これは、ソフト圧縮を「凍結されたLLMの隠れ状態を介した明示的情報伝達」という新たなパラダイムとして定式化する軽量フレームワークであり、圧縮処理をモデル内部の自己注意の動きから分離する。ComprExITは、(i)**深さ方向の伝達**により、複数層の情報をトークンアンカーへ選択的に伝達し、進行する上書きを軽減し、(ii)**幅方向の伝達**により、グローバルに最適化された伝達計画を経てアンカーを少数のスロットに集約し、情報の協調的配分を保証する。6つの質問応答ベンチマークにおいて、ComprExITは、最先端の文脈圧縮手法を一貫して上回り、追加パラメータは約1%のみであることを示した。これは、明示的かつ協調的な情報伝達が、より効率的でロバストな長文脈圧縮を実現することを実証している。
English
Long-context inference with Large Language Models (LLMs) is costly due to quadratic attention and growing key-value caches, motivating context compression. In this work, we study soft context compression, where a long context is condensed into a small set of continuous representations. Existing methods typically re-purpose the LLM itself as a trainable compressor, relying on layer-by-layer self-attention to iteratively aggregate information. We argue that this paradigm suffers from two structural limitations: (i) progressive representation overwriting across layers (ii) uncoordinated allocation of compression capacity across tokens. We propose ComprExIT (Context Compression via Explicit Information Transmission), a lightweight framework that formulates soft compression into a new paradigm: explicit information transmission over frozen LLM hidden states. This decouples compression from the model's internal self-attention dynamics. ComprExIT performs (i) depth-wise transmission to selectively transmit multi-layer information into token anchors, mitigating progressive overwriting, and (ii) width-wise transmission to aggregate anchors into a small number of slots via a globally optimized transmission plan, ensuring coordinated allocation of information. Across six question-answering benchmarks, ComprExIT consistently outperforms state-of-the-art context compression methods while introducing only ~1% additional parameters, demonstrating that explicit and coordinated information transmission enables more effective and robust long-context compression.