Kontextkompression durch explizite Informationsübertragung
Context Compression via Explicit Information Transmission
February 3, 2026
papers.authors: Jiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao, Yulan He
cs.AI
papers.abstract
Langzeit-Inferenz mit Large Language Models (LLMs) ist aufgrund quadratischer Aufmerksamkeitskosten und wachsender Key-Value-Caches kostspielig, was die Kompression des Kontexts motiviert. In dieser Arbeit untersuchen wir soft context compression, bei der ein langer Kontext in einen kleinen Satz kontinuierlicher Repräsentationen verdichtet wird. Bestehende Methoden nutzen typischerweise das LLM selbst als trainierbaren Kompressor und stützen sich auf schichtweise Selbstaufmerksamkeit, um Informationen iterativ zu aggregieren. Wir argumentieren, dass dieses Paradigma unter zwei strukturellen Limitierungen leidet: (i) progressive Überschreibung von Repräsentationen über Schichten hinweg und (ii) unkoordinierte Zuteilung der Kompressionskapazität über Tokens hinweg. Wir schlagen ComprExIT (Context Compression via Explicit Information Transmission) vor, ein leichtgewichtiges Framework, das soft compression in ein neues Paradigma überführt: explizite Informationsübertragung über eingefrorene LLM-Hidden-States. Dies entkoppelt die Kompression von der internen Selbstaufmerksamkeitsdynamik des Modells. ComprExIT führt (i) tiefenweise Übertragung durch, um mehrschichtige Informationen selektiv in Token-Anker zu übertragen und progressive Überschreibung zu mildern, sowie (ii) breitenweise Übertragung, um Anker über einen global optimierten Übertragungsplan in eine kleine Anzahl von Slots zu aggregieren und so eine koordinierte Zuteilung von Informationen zu gewährleisten. In sechs Question-Answering-Benchmarks übertrifft ComprExIT durchgängig state-of-the-art Kontextkompressionsmethoden, bei einem Zuwachs von nur ~1 % zusätzlichen Parametern, was demonstriert, dass explizite und koordinierte Informationsübertragung effektivere und robustere Langzeit-Kontextkompression ermöglicht.
English
Long-context inference with Large Language Models (LLMs) is costly due to quadratic attention and growing key-value caches, motivating context compression. In this work, we study soft context compression, where a long context is condensed into a small set of continuous representations. Existing methods typically re-purpose the LLM itself as a trainable compressor, relying on layer-by-layer self-attention to iteratively aggregate information. We argue that this paradigm suffers from two structural limitations: (i) progressive representation overwriting across layers (ii) uncoordinated allocation of compression capacity across tokens. We propose ComprExIT (Context Compression via Explicit Information Transmission), a lightweight framework that formulates soft compression into a new paradigm: explicit information transmission over frozen LLM hidden states. This decouples compression from the model's internal self-attention dynamics. ComprExIT performs (i) depth-wise transmission to selectively transmit multi-layer information into token anchors, mitigating progressive overwriting, and (ii) width-wise transmission to aggregate anchors into a small number of slots via a globally optimized transmission plan, ensuring coordinated allocation of information. Across six question-answering benchmarks, ComprExIT consistently outperforms state-of-the-art context compression methods while introducing only ~1% additional parameters, demonstrating that explicit and coordinated information transmission enables more effective and robust long-context compression.