Compression douce de contexte sensible à la densité avec ratio de compression semi-dynamique

Résumé

La compression de contexte douce réduit la charge computationnelle du traitement de contextes longs dans les LLM en encodant les contextes étendus en un nombre réduit de tokens latents. Cependant, les cadres existants appliquent des taux de compression uniformes, ne tenant pas compte de la variance extrême de la densité informationnelle du langage naturel. Bien que l'adoption d'un taux de compression dynamique adapté à la densité semble intuitive, les investigations empiriques révèlent que les modèles peinent intrinsèquement avec les opérations paramétrées par des hyperparamètres structurels continus dépendants de l'entrée. Pour résoudre cet écueil, nous introduisons le cadre de Compression de Contexte Semi-Dynamique. Notre approche intègre un Sélecteur de Ratio Discret, qui prédit une cible de compression basée sur la densité informationnelle intrinsèque et la quantifie en un ensemble prédéfini de taux de compression discrets. Il est efficacement entraîné conjointement avec le compresseur sur des données synthétiques, utilisant les longueurs des résumés comme proxy pour créer des étiquettes de prédiction du taux de compression. Des évaluations approfondies confirment que notre cadre adapté à la densité, utilisant le pooling moyen comme architecture de base, surpasse constamment les bases de référence statiques, établissant une frontière de Pareto robuste pour les techniques de compression de contexte. Notre code, données et poids des modèles sont disponibles à l'adresse https://github.com/yuyijiong/semi-dynamic-context-compress.

English

Soft context compression reduces the computational workload of processing long contexts in LLMs by encoding long context into a smaller number of latent tokens. However, existing frameworks apply uniform compression ratios, failing to account for the extreme variance in natural language information density. While adopting a density-aware dynamic compression ratio seems intuitive, empirical investigations reveal that models struggle intrinsically with operations parameterized by input dependent, continuous structural hyperparameters. To resolve this pitfall, we introduce Semi-Dynamic Context Compression framework. Our approach features a Discrete Ratio Selector, which predicts a compression target based on intrinsic information density and quantizes it to a predefined set of discrete compression ratios. It is efficiently jointly trained with the compressor on synthetic data, with the summary lengths as a proxy to create labels for compression ratio prediction. Extensive evaluations confirm that our density-aware framework, utilizing mean pooling as the backbone, consistently outperforms static baselines, establishing a robust Pareto frontier for context compression techniques. Our code, data and model weights are available at https://github.com/yuyijiong/semi-dynamic-context-compress

Compression douce de contexte sensible à la densité avec ratio de compression semi-dynamique

Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

Résumé

Support