CompLLM: Compressão para Q&A de Contexto Longo

Resumo

Modelos de Linguagem de Grande Escala (LLMs) enfrentam desafios computacionais significativos ao processar contextos longos devido à complexidade quadrática da autoatenção. Embora métodos de compressão de contexto suave, que mapeiam o texto de entrada para representações latentes menores, tenham mostrado potencial, sua adoção no mundo real é limitada. As técnicas existentes geralmente comprimem o contexto como uma única unidade, o que resulta em complexidade quadrática de compressão e na incapacidade de reutilizar cálculos em consultas com contextos sobrepostos. Neste trabalho, apresentamos o CompLLM, uma técnica de compressão suave projetada para implantação prática. Em vez de processar o contexto de forma holística, o CompLLM o divide em segmentos e comprime cada um independentemente. Essa escolha de design simples resulta em três propriedades críticas: eficiência, pois a etapa de compressão escala linearmente com o comprimento do contexto; escalabilidade, permitindo que modelos treinados em sequências curtas (por exemplo, 1k tokens) generalizem para contextos de 100k tokens; e reutilização, permitindo que segmentos comprimidos sejam armazenados em cache e reutilizados em diferentes consultas. Nossos experimentos mostram que, com uma taxa de compressão de 2x, em contextos longos, o CompLLM acelera o Tempo para o Primeiro Token (TTFT) em até 4x e reduz o tamanho do cache KV em 50%. Além disso, o CompLLM alcança desempenho comparável ao obtido com o contexto não comprimido, e até o supera em sequências muito longas, demonstrando sua eficácia e utilidade prática.

English

Large Language Models (LLMs) face significant computational challenges when processing long contexts due to the quadratic complexity of self-attention. While soft context compression methods, which map input text to smaller latent representations, have shown promise, their real-world adoption is limited. Existing techniques typically compress the context as a single unit, which leads to quadratic compression complexity and an inability to reuse computations across queries with overlapping contexts. In this work, we introduce CompLLM, a soft compression technique designed for practical deployment. Instead of processing the context holistically, CompLLM divides it into segments and compresses each one independently. This simple design choice yields three critical properties: efficiency, as the compression step scales linearly with the context length; scalability, enabling models trained on short sequences (e.g., 1k tokens) to generalize to contexts of 100k tokens; and reusability, allowing compressed segments to be cached and reused across different queries. Our experiments show that with a 2x compression rate, at high context lengths CompLLM speeds up Time To First Token (TTFT) by up to 4x and reduces the KV cache size by 50%. Furthermore, CompLLM achieves performance comparable to that obtained with the uncompressed context, and even surpasses it on very long sequences, demonstrating its effectiveness and practical utility.

CompLLM: Compressão para Q&A de Contexto Longo

CompLLM: Compression for Long Context Q&A

Resumo

Support