CompLLM: Compresión para Preguntas y Respuestas de Contexto Largo
CompLLM: Compression for Long Context Q&A
September 23, 2025
Autores: Gabriele Berton, Jayakrishnan Unnikrishnan, Son Tran, Mubarak Shah
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) enfrentan desafíos computacionales significativos al procesar contextos extensos debido a la complejidad cuadrática de la autoatención. Aunque los métodos de compresión de contexto suave, que mapean el texto de entrada a representaciones latentes más pequeñas, han mostrado resultados prometedores, su adopción en el mundo real es limitada. Las técnicas existentes suelen comprimir el contexto como una sola unidad, lo que resulta en una complejidad de compresión cuadrática y en la incapacidad de reutilizar cálculos en consultas con contextos superpuestos. En este trabajo, presentamos CompLLM, una técnica de compresión suave diseñada para su implementación práctica. En lugar de procesar el contexto de manera holística, CompLLM lo divide en segmentos y comprime cada uno de forma independiente. Esta elección de diseño simple ofrece tres propiedades críticas: eficiencia, ya que el paso de compresión escala linealmente con la longitud del contexto; escalabilidad, permitiendo que modelos entrenados en secuencias cortas (por ejemplo, 1k tokens) generalicen a contextos de 100k tokens; y reutilización, permitiendo que los segmentos comprimidos se almacenen en caché y se reutilicen en diferentes consultas. Nuestros experimentos muestran que, con una tasa de compresión de 2x, en contextos de gran longitud, CompLLM acelera el Tiempo hasta el Primer Token (TTFT) hasta 4 veces y reduce el tamaño de la caché KV en un 50%. Además, CompLLM logra un rendimiento comparable al obtenido con el contexto sin comprimir, e incluso lo supera en secuencias muy largas, demostrando su efectividad y utilidad práctica.
English
Large Language Models (LLMs) face significant computational challenges when
processing long contexts due to the quadratic complexity of self-attention.
While soft context compression methods, which map input text to smaller latent
representations, have shown promise, their real-world adoption is limited.
Existing techniques typically compress the context as a single unit, which
leads to quadratic compression complexity and an inability to reuse
computations across queries with overlapping contexts. In this work, we
introduce CompLLM, a soft compression technique designed for practical
deployment. Instead of processing the context holistically, CompLLM divides it
into segments and compresses each one independently. This simple design choice
yields three critical properties: efficiency, as the compression step scales
linearly with the context length; scalability, enabling models trained on short
sequences (e.g., 1k tokens) to generalize to contexts of 100k tokens; and
reusability, allowing compressed segments to be cached and reused across
different queries. Our experiments show that with a 2x compression rate, at
high context lengths CompLLM speeds up Time To First Token (TTFT) by up to 4x
and reduces the KV cache size by 50%. Furthermore, CompLLM achieves performance
comparable to that obtained with the uncompressed context, and even surpasses
it on very long sequences, demonstrating its effectiveness and practical
utility.