Compressão de Contexto Suave com Consciência de Densidade e Rácio de Compressão Semidinâmico

Resumo

A compressão de contexto suave reduz a carga computacional do processamento de contextos longos em LLMs codificando o contexto longo num número menor de tokens latentes. No entanto, os frameworks existentes aplicam taxas de compressão uniformes, não considerando a variação extrema na densidade de informação da linguagem natural. Embora a adoção de uma taxa de compressão dinâmica e consciente da densidade pareça intuitiva, investigações empíricas revelam que os modelos lutam intrinsecamente com operações parametrizadas por hiperparâmetros estruturais contínuos dependentes da entrada. Para resolver esta limitação, introduzimos o framework de Compressão de Contexto Semidinâmica. Nossa abordagem apresenta um Seletor de Razão Discreta, que prevê um alvo de compressão baseado na densidade de informação intrínseca e o quantiza para um conjunto predefinido de razões de compressão discretas. Ele é treinado conjuntamente de forma eficiente com o compressor em dados sintéticos, utilizando os comprimentos dos resumos como um proxy para criar rótulos para a previsão da razão de compressão. Avaliações extensivas confirmam que o nosso framework consciente da densidade, utilizando *mean pooling* como base, supera consistentemente as *baselines* estáticas, estabelecendo uma fronteira de Pareto robusta para técnicas de compressão de contexto. O nosso código, dados e pesos do modelo estão disponíveis em https://github.com/yuyijiong/semi-dynamic-context-compress.

English

Soft context compression reduces the computational workload of processing long contexts in LLMs by encoding long context into a smaller number of latent tokens. However, existing frameworks apply uniform compression ratios, failing to account for the extreme variance in natural language information density. While adopting a density-aware dynamic compression ratio seems intuitive, empirical investigations reveal that models struggle intrinsically with operations parameterized by input dependent, continuous structural hyperparameters. To resolve this pitfall, we introduce Semi-Dynamic Context Compression framework. Our approach features a Discrete Ratio Selector, which predicts a compression target based on intrinsic information density and quantizes it to a predefined set of discrete compression ratios. It is efficiently jointly trained with the compressor on synthetic data, with the summary lengths as a proxy to create labels for compression ratio prediction. Extensive evaluations confirm that our density-aware framework, utilizing mean pooling as the backbone, consistently outperforms static baselines, establishing a robust Pareto frontier for context compression techniques. Our code, data and model weights are available at https://github.com/yuyijiong/semi-dynamic-context-compress

Compressão de Contexto Suave com Consciência de Densidade e Rácio de Compressão Semidinâmico

Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

Resumo

Support