Compressione del Contesto Soft con Consapevolezza della Densità e Rapporto di Compressione Semi-Dinamico

Abstract

La compressione del contesto soft riduce il carico computazionale per l'elaborazione di contesti lunghi nei LLM codificando il contesto esteso in un numero inferiore di token latenti. Tuttavia, i framework esistenti applicano rapporti di compressione uniformi, non tenendo conto della estrema variabilità nella densità informativa del linguaggio naturale. Sebbene l'adozione di un rapporto di compressione dinamico e consapevole della densità appaia intuitiva, indagini empiriche rivelano che i modelli faticano intrinsecamente con operazioni parametrizzate da iperparametri strutturali continui dipendenti dall'input. Per risolvere questa criticità, introduciamo il framework Semi-Dynamic Context Compression. Il nostro approccio include un Discrete Ratio Selector, che predice un obiettivo di compressione basato sulla densità informativa intrinseca e lo quantizza in un insieme predefinito di rapporti di compressione discreti. Questo viene addestrato efficientemente in modo congiunto con il compressore su dati sintetici, utilizzando le lunghezze dei riassunti come proxy per creare etichette per la previsione del rapporto di compressione. Valutazioni estensive confermano che il nostro framework density-aware, che utilizza il mean pooling come backbone, supera costantemente i baseline statici, stabilendo una solida frontiera di Pareto per le tecniche di compressione del contesto. Il nostro codice, i dati e i pesi del modello sono disponibili su https://github.com/yuyijiong/semi-dynamic-context-compress.

English

Soft context compression reduces the computational workload of processing long contexts in LLMs by encoding long context into a smaller number of latent tokens. However, existing frameworks apply uniform compression ratios, failing to account for the extreme variance in natural language information density. While adopting a density-aware dynamic compression ratio seems intuitive, empirical investigations reveal that models struggle intrinsically with operations parameterized by input dependent, continuous structural hyperparameters. To resolve this pitfall, we introduce Semi-Dynamic Context Compression framework. Our approach features a Discrete Ratio Selector, which predicts a compression target based on intrinsic information density and quantizes it to a predefined set of discrete compression ratios. It is efficiently jointly trained with the compressor on synthetic data, with the summary lengths as a proxy to create labels for compression ratio prediction. Extensive evaluations confirm that our density-aware framework, utilizing mean pooling as the backbone, consistently outperforms static baselines, establishing a robust Pareto frontier for context compression techniques. Our code, data and model weights are available at https://github.com/yuyijiong/semi-dynamic-context-compress

Compressione del Contesto Soft con Consapevolezza della Densità e Rapporto di Compressione Semi-Dinamico

Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

Abstract

Support