CompLLM: Сжатие для вопросно-ответных систем с длинным контекстом

Аннотация

Крупные языковые модели (LLM) сталкиваются с серьезными вычислительными трудностями при обработке длинных контекстов из-за квадратичной сложности механизма самовнимания. Хотя методы мягкого сжатия контекста, которые преобразуют входной текст в более компактные латентные представления, показали свою перспективность, их практическое применение остается ограниченным. Существующие подходы обычно сжимают контекст как единое целое, что приводит к квадратичной сложности сжатия и невозможности повторного использования вычислений для запросов с перекрывающимися контекстами. В данной работе мы представляем CompLLM — метод мягкого сжатия, разработанный для практического применения. Вместо обработки контекста как единого целого CompLLM разделяет его на сегменты и сжимает каждый из них независимо. Этот простой дизайн обеспечивает три ключевых свойства: эффективность, так как этап сжатия масштабируется линейно с длиной контекста; масштабируемость, позволяя моделям, обученным на коротких последовательностях (например, 1 тыс. токенов), обобщать на контексты длиной 100 тыс. токенов; и возможность повторного использования, позволяя кэшировать сжатые сегменты и применять их для разных запросов. Наши эксперименты показывают, что при коэффициенте сжатия 2x и на длинных контекстах CompLLM ускоряет время до первого токена (TTFT) до 4 раз и сокращает размер кэша ключей и значений (KV cache) на 50%. Более того, CompLLM демонстрирует производительность, сопоставимую с использованием несжатого контекста, а на очень длинных последовательностях даже превосходит его, что подтверждает его эффективность и практическую полезность.

English

Large Language Models (LLMs) face significant computational challenges when processing long contexts due to the quadratic complexity of self-attention. While soft context compression methods, which map input text to smaller latent representations, have shown promise, their real-world adoption is limited. Existing techniques typically compress the context as a single unit, which leads to quadratic compression complexity and an inability to reuse computations across queries with overlapping contexts. In this work, we introduce CompLLM, a soft compression technique designed for practical deployment. Instead of processing the context holistically, CompLLM divides it into segments and compresses each one independently. This simple design choice yields three critical properties: efficiency, as the compression step scales linearly with the context length; scalability, enabling models trained on short sequences (e.g., 1k tokens) to generalize to contexts of 100k tokens; and reusability, allowing compressed segments to be cached and reused across different queries. Our experiments show that with a 2x compression rate, at high context lengths CompLLM speeds up Time To First Token (TTFT) by up to 4x and reduces the KV cache size by 50%. Furthermore, CompLLM achieves performance comparable to that obtained with the uncompressed context, and even surpasses it on very long sequences, demonstrating its effectiveness and practical utility.

CompLLM: Сжатие для вопросно-ответных систем с длинным контекстом

CompLLM: Compression for Long Context Q&A

Аннотация

Support