Compressione del Contesto tramite Trasmissione Esplicita dell'Informazione

Abstract

L'inferenza a contesto lungo con i Large Language Model (LLM) è costosa a causa dell'attenzione quadratica e della crescita delle cache chiave-valore, motivando la compressione del contesto. In questo lavoro, studiamo la compressione soft del contesto, in cui un contesto lungo viene condensato in un piccolo insieme di rappresentazioni continue. I metodi esistenti tipicamente riutilizzano lo stesso LLM come compressore addestrabile, basandosi sull'auto-attenzione strato per strato per aggregare le informazioni in modo iterativo. Sosteniamo che questo paradigma soffre di due limitazioni strutturali: (i) sovrascrittura progressiva delle rappresentazioni attraverso gli strati (ii) allocazione non coordinata della capacità di compressione tra i token. Proponiamo ComprExIT (Context Compression via Explicit Information Transmission), un framework leggero che formula la compressione soft in un nuovo paradigma: trasmissione esplicita dell'informazione sugli stati nascosti congelati del LLM. Ciò disaccoppia la compressione dalle dinamiche interne di auto-attenzione del modello. ComprExIT esegue (i) trasmissione in profondità per trasmettere selettivamente le informazioni multi-strato negli anchor token, mitigando la sovrascrittura progressiva, e (ii) trasmissione in ampiezza per aggregare gli anchor in un numero ridotto di slot tramite un piano di trasmissione globalmente ottimizzato, garantendo un'allocazione coordinata dell'informazione. Su sei benchmark di question-answering, ComprExIT supera costantemente i metodi all'avanguardia per la compressione del contesto, introducendo solo circa l'1% di parametri aggiuntivi, dimostrando che una trasmissione esplicita e coordinata dell'informazione consente una compressione del contesto lungo più efficace e robusta.

English

Long-context inference with Large Language Models (LLMs) is costly due to quadratic attention and growing key-value caches, motivating context compression. In this work, we study soft context compression, where a long context is condensed into a small set of continuous representations. Existing methods typically re-purpose the LLM itself as a trainable compressor, relying on layer-by-layer self-attention to iteratively aggregate information. We argue that this paradigm suffers from two structural limitations: (i) progressive representation overwriting across layers (ii) uncoordinated allocation of compression capacity across tokens. We propose ComprExIT (Context Compression via Explicit Information Transmission), a lightweight framework that formulates soft compression into a new paradigm: explicit information transmission over frozen LLM hidden states. This decouples compression from the model's internal self-attention dynamics. ComprExIT performs (i) depth-wise transmission to selectively transmit multi-layer information into token anchors, mitigating progressive overwriting, and (ii) width-wise transmission to aggregate anchors into a small number of slots via a globally optimized transmission plan, ensuring coordinated allocation of information. Across six question-answering benchmarks, ComprExIT consistently outperforms state-of-the-art context compression methods while introducing only ~1% additional parameters, demonstrating that explicit and coordinated information transmission enables more effective and robust long-context compression.