CompLLM : Compression pour les questions-réponses en contexte long

papers.abstract

Les modèles de langage de grande taille (LLMs) rencontrent des défis computationnels significatifs lors du traitement de contextes longs en raison de la complexité quadratique de l'auto-attention. Bien que les méthodes de compression douce du contexte, qui transforment le texte d'entrée en représentations latentes plus petites, aient montré des résultats prometteurs, leur adoption dans le monde réel reste limitée. Les techniques existantes compressent généralement le contexte en une seule unité, ce qui entraîne une complexité de compression quadratique et une incapacité à réutiliser les calculs pour des requêtes avec des contextes qui se chevauchent. Dans ce travail, nous présentons CompLLM, une technique de compression douce conçue pour un déploiement pratique. Au lieu de traiter le contexte de manière holistique, CompLLM le divise en segments et compresse chacun indépendamment. Ce choix de conception simple confère trois propriétés critiques : l'efficacité, car l'étape de compression évolue linéairement avec la longueur du contexte ; la scalabilité, permettant aux modèles entraînés sur des séquences courtes (par exemple, 1 000 tokens) de généraliser à des contextes de 100 000 tokens ; et la réutilisabilité, permettant aux segments compressés d'être mis en cache et réutilisés pour différentes requêtes. Nos expériences montrent qu'avec un taux de compression de 2x, pour des contextes longs, CompLLM accélère le temps jusqu'au premier token (TTFT) jusqu'à 4x et réduit la taille du cache KV de 50%. De plus, CompLLM atteint des performances comparables à celles obtenues avec le contexte non compressé, et les dépasse même pour des séquences très longues, démontrant ainsi son efficacité et son utilité pratique.

English

Large Language Models (LLMs) face significant computational challenges when processing long contexts due to the quadratic complexity of self-attention. While soft context compression methods, which map input text to smaller latent representations, have shown promise, their real-world adoption is limited. Existing techniques typically compress the context as a single unit, which leads to quadratic compression complexity and an inability to reuse computations across queries with overlapping contexts. In this work, we introduce CompLLM, a soft compression technique designed for practical deployment. Instead of processing the context holistically, CompLLM divides it into segments and compresses each one independently. This simple design choice yields three critical properties: efficiency, as the compression step scales linearly with the context length; scalability, enabling models trained on short sequences (e.g., 1k tokens) to generalize to contexts of 100k tokens; and reusability, allowing compressed segments to be cached and reused across different queries. Our experiments show that with a 2x compression rate, at high context lengths CompLLM speeds up Time To First Token (TTFT) by up to 4x and reduces the KV cache size by 50%. Furthermore, CompLLM achieves performance comparable to that obtained with the uncompressed context, and even surpasses it on very long sequences, demonstrating its effectiveness and practical utility.

CompLLM : Compression pour les questions-réponses en contexte long

CompLLM: Compression for Long Context Q&A

papers.abstract

Support