Compressão de Contexto via Transmissão Explícita de Informação

Resumo

A inferência de contexto longo com Modelos de Linguagem de Grande Porte (LLMs) é dispendiosa devido à atenção quadrática e ao crescimento dos caches de chave-valor, motivando a compressão de contexto. Neste trabalho, estudamos a compressão suave de contexto, na qual um contexto longo é condensado em um pequeno conjunto de representações contínuas. Os métodos existentes normalmente reaproveitam o próprio LLM como um compressor treinável, dependendo da auto-atenção camada por camada para agregar informações iterativamente. Argumentamos que este paradigma sofre de duas limitações estruturais: (i) sobrescrita progressiva de representações entre as camadas e (ii) alocação descoordenada da capacidade de compressão entre os tokens. Propomos o ComprExIT (Compressão de Contexto via Transmissão Explícita de Informação), uma estrutura leve que formula a compressão suave em um novo paradigma: transmissão explícita de informação sobre os estados ocultos congelados do LLM. Isso desacopla a compressão da dinâmica interna de auto-atenção do modelo. O ComprExIT realiza (i) transmissão em profundidade para transmitir seletivamente informações de múltiplas camadas para âncoras de token, mitigando a sobrescrita progressiva, e (ii) transmissão em largura para agregar âncoras em um pequeno número de slots via um plano de transmissão globalmente otimizado, garantindo uma alocação coordenada da informação. Em seis benchmarks de resposta a perguntas, o ComprExIT supera consistentemente os métodos state-of-the-art de compressão de contexto enquanto introduz apenas ~1% de parâmetros adicionais, demonstrando que a transmissão explícita e coordenada de informação permite uma compressão de contexto longo mais eficaz e robusta.

English

Long-context inference with Large Language Models (LLMs) is costly due to quadratic attention and growing key-value caches, motivating context compression. In this work, we study soft context compression, where a long context is condensed into a small set of continuous representations. Existing methods typically re-purpose the LLM itself as a trainable compressor, relying on layer-by-layer self-attention to iteratively aggregate information. We argue that this paradigm suffers from two structural limitations: (i) progressive representation overwriting across layers (ii) uncoordinated allocation of compression capacity across tokens. We propose ComprExIT (Context Compression via Explicit Information Transmission), a lightweight framework that formulates soft compression into a new paradigm: explicit information transmission over frozen LLM hidden states. This decouples compression from the model's internal self-attention dynamics. ComprExIT performs (i) depth-wise transmission to selectively transmit multi-layer information into token anchors, mitigating progressive overwriting, and (ii) width-wise transmission to aggregate anchors into a small number of slots via a globally optimized transmission plan, ensuring coordinated allocation of information. Across six question-answering benchmarks, ComprExIT consistently outperforms state-of-the-art context compression methods while introducing only ~1% additional parameters, demonstrating that explicit and coordinated information transmission enables more effective and robust long-context compression.