ChatPaper.aiChatPaper

Compresión de Contexto mediante Transmisión Explícita de Información

Context Compression via Explicit Information Transmission

February 3, 2026
Autores: Jiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao, Yulan He
cs.AI

Resumen

La inferencia de contexto largo con Modelos de Lenguaje Grandes (LLMs) es costosa debido a la atención cuadrática y al crecimiento de las cachés clave-valor, lo que motiva la compresión de contexto. En este trabajo, estudiamos la compresión de contexto suave, donde un contexto largo se condensa en un pequeño conjunto de representaciones continuas. Los métodos existentes suelen readaptar el propio LLM como un compresor entrenable, dependiendo de la autoatención capa por capa para agregar información de manera iterativa. Sostenemos que este paradigma sufre dos limitaciones estructurales: (i) sobrescritura progresiva de representaciones a través de las capas y (ii) asignación no coordinada de la capacidad de compresión entre tokens. Proponemos ComprExIT (Compresión de Contexto mediante Transmisión Explícita de Información), un marco liviano que formula la compresión suave en un nuevo paradigma: transmisión explícita de información sobre estados ocultos congelados del LLM. Esto desacopla la compresión de la dinámica interna de autoatención del modelo. ComprExIT realiza (i) transmisión en profundidad para transmitir selectivamente información multicapa a anclajes de tokens, mitigando la sobrescritura progresiva, y (ii) transmisión en anchura para agregar anclajes en un pequeño número de espacios mediante un plan de transmisión globalmente optimizado, garantizando una asignación coordinada de la información. En seis benchmarks de respuesta a preguntas, ComprExIT supera consistentemente a los métodos de compresión de contexto más avanzados mientras introduce solo ~1% de parámetros adicionales, demostrando que la transmisión explícita y coordinada de información permite una compresión de contexto largo más efectiva y robusta.
English
Long-context inference with Large Language Models (LLMs) is costly due to quadratic attention and growing key-value caches, motivating context compression. In this work, we study soft context compression, where a long context is condensed into a small set of continuous representations. Existing methods typically re-purpose the LLM itself as a trainable compressor, relying on layer-by-layer self-attention to iteratively aggregate information. We argue that this paradigm suffers from two structural limitations: (i) progressive representation overwriting across layers (ii) uncoordinated allocation of compression capacity across tokens. We propose ComprExIT (Context Compression via Explicit Information Transmission), a lightweight framework that formulates soft compression into a new paradigm: explicit information transmission over frozen LLM hidden states. This decouples compression from the model's internal self-attention dynamics. ComprExIT performs (i) depth-wise transmission to selectively transmit multi-layer information into token anchors, mitigating progressive overwriting, and (ii) width-wise transmission to aggregate anchors into a small number of slots via a globally optimized transmission plan, ensuring coordinated allocation of information. Across six question-answering benchmarks, ComprExIT consistently outperforms state-of-the-art context compression methods while introducing only ~1% additional parameters, demonstrating that explicit and coordinated information transmission enables more effective and robust long-context compression.
PDF142February 11, 2026