Compression contextuelle par transmission explicite de l'information
Context Compression via Explicit Information Transmission
February 3, 2026
papers.authors: Jiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao, Yulan He
cs.AI
papers.abstract
L'inférence à contexte long avec les modèles de langage de grande taille (LLM) est coûteuse en raison de l'attention quadratique et de la croissance des caches clé-valeur, ce qui motive la compression du contexte. Dans ce travail, nous étudions la compression douce du contexte, où un long contexte est condensé en un petit ensemble de représentations continues. Les méthodes existantes réutilisent généralement le LLM lui-même comme compresseur entraînable, en s'appuyant sur l'auto-attention couche par couche pour agréger itérativement l'information. Nous soutenons que ce paradigme souffre de deux limitations structurelles : (i) l'écrasement progressif des représentations à travers les couches, (ii) l'allocation non coordonnée de la capacité de compression entre les tokens. Nous proposons ComprExIT (Context Compression via Explicit Information Transmission), un cadre léger qui formule la compression douce en un nouveau paradigme : la transmission explicite d'informations sur des états cachés figés du LLM. Cela découple la compression de la dynamique interne d'auto-attention du modèle. ComprExIT effectue (i) une transmission en profondeur pour transmettre sélectivement des informations multi-couches vers des tokens ancres, atténuant l'écrasement progressif, et (ii) une transmission en largeur pour agréger les ancres en un petit nombre d'emplacements via un plan de transmission globalement optimisé, garantissant une allocation coordonnée de l'information. Sur six benchmarks de question-réponse, ComprExIT surpasse constamment les méthodes de compression de contexte les plus avancées tout en n'introduisant qu'environ 1 % de paramètres supplémentaires, démontrant que la transmission explicite et coordonnée de l'information permet une compression de contexte long plus efficace et robuste.
English
Long-context inference with Large Language Models (LLMs) is costly due to quadratic attention and growing key-value caches, motivating context compression. In this work, we study soft context compression, where a long context is condensed into a small set of continuous representations. Existing methods typically re-purpose the LLM itself as a trainable compressor, relying on layer-by-layer self-attention to iteratively aggregate information. We argue that this paradigm suffers from two structural limitations: (i) progressive representation overwriting across layers (ii) uncoordinated allocation of compression capacity across tokens. We propose ComprExIT (Context Compression via Explicit Information Transmission), a lightweight framework that formulates soft compression into a new paradigm: explicit information transmission over frozen LLM hidden states. This decouples compression from the model's internal self-attention dynamics. ComprExIT performs (i) depth-wise transmission to selectively transmit multi-layer information into token anchors, mitigating progressive overwriting, and (ii) width-wise transmission to aggregate anchors into a small number of slots via a globally optimized transmission plan, ensuring coordinated allocation of information. Across six question-answering benchmarks, ComprExIT consistently outperforms state-of-the-art context compression methods while introducing only ~1% additional parameters, demonstrating that explicit and coordinated information transmission enables more effective and robust long-context compression.