Плотностно-ориентированное сжатие мягкого контекста с полудинамическим коэффициентом сжатия

Аннотация

Сжатие мягкого контекста снижает вычислительную нагрузку при обработке длинных контекстов в больших языковых моделях за счет кодирования длинного контекста в меньшее количество латентных токенов. Однако существующие фреймворки применяют единые коэффициенты сжатия, не учитывая значительной вариативности плотности информации в естественном языке. Хотя использование динамического коэффициента сжатия, учитывающего плотность, кажется интуитивным, эмпирические исследования показывают, что модели испытывают внутренние трудности с операциями, параметризуемыми зависящими от входа непрерывными структурными гиперпараметрами. Для устранения этого недостатка мы представляем фреймворк полудинамического сжатия контекста. Наш подход включает Дискретный селектор коэффициента, который предсказывает цель сжатия на основе внутренней плотности информации и квантует ее до предопределенного набора дискретных коэффициентов сжатия. Он эффективно совместно обучается с компрессором на синтетических данных, где длины суммаризации используются как прокси для создания меток прогнозирования коэффициента сжатия. Обширные оценки подтверждают, что наш подход, учитывающий плотность и использующий усредняющее пулирование в качестве основы, стабильно превосходит статические базовые методы, устанавливая надежную границу Парето для методов сжатия контекста. Наш код, данные и веса моделей доступны по адресу https://github.com/yuyijiong/semi-dynamic-context-compress.

English

Soft context compression reduces the computational workload of processing long contexts in LLMs by encoding long context into a smaller number of latent tokens. However, existing frameworks apply uniform compression ratios, failing to account for the extreme variance in natural language information density. While adopting a density-aware dynamic compression ratio seems intuitive, empirical investigations reveal that models struggle intrinsically with operations parameterized by input dependent, continuous structural hyperparameters. To resolve this pitfall, we introduce Semi-Dynamic Context Compression framework. Our approach features a Discrete Ratio Selector, which predicts a compression target based on intrinsic information density and quantizes it to a predefined set of discrete compression ratios. It is efficiently jointly trained with the compressor on synthetic data, with the summary lengths as a proxy to create labels for compression ratio prediction. Extensive evaluations confirm that our density-aware framework, utilizing mean pooling as the backbone, consistently outperforms static baselines, establishing a robust Pareto frontier for context compression techniques. Our code, data and model weights are available at https://github.com/yuyijiong/semi-dynamic-context-compress

Плотностно-ориентированное сжатие мягкого контекста с полудинамическим коэффициентом сжатия

Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

Аннотация

Support