XQuant : Surmonter le mur de mémoire pour l'inférence des LLM grâce à la rematérialisation du cache KV
XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization
August 14, 2025
papers.authors: Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
papers.abstract
Bien que l'inférence des LLM soit devenue une charge de travail critique pour de nombreuses applications en aval, l'inférence efficace des LLM reste un défi en raison de l'empreinte mémoire substantielle et des exigences élevées en bande passante. Parallèlement, les capacités de calcul ont régulièrement dépassé à la fois la capacité mémoire et la bande passante au cours des dernières décennies, une tendance qui reste évidente dans les matériels GPU modernes et qui exacerbe le défi de l'inférence des LLM. Ainsi, de nouveaux algorithmes émergent, qui échangent une augmentation des calculs contre une réduction des opérations mémoire. Dans cette optique, nous présentons XQuant, qui tire parti de cette tendance, permettant une réduction d'un ordre de grandeur de la consommation mémoire grâce à une quantification en faible précision, avec des avantages substantiels en termes de précision par rapport aux méthodes de quantification de cache KV de pointe. Nous y parvenons en quantifiant et en mettant en cache les activations d'entrée de couche X, au lieu d'utiliser le cache KV standard, puis en rematérialisant les clés et les valeurs à la volée pendant l'inférence. Cela entraîne une économie mémoire immédiate de 2 fois par rapport au cache KV. En appliquant XQuant, nous obtenons jusqu'à 7,7 fois d'économie mémoire avec une dégradation de perplexité inférieure à 0,1 par rapport à la référence FP16. De plus, notre approche exploite le fait que les valeurs X sont similaires entre les couches. Sur la base de cette observation, nous introduisons XQuant-CL, qui exploite la similarité inter-couches dans les embeddings X pour une compression extrême. Sur différents modèles, XQuant-CL atteint jusqu'à 10 fois d'économie mémoire par rapport à la référence FP16 avec seulement 0,01 de dégradation de perplexité, et 12,5 fois d'économie mémoire avec seulement 0,1 de dégradation de perplexité. XQuant exploite l'augmentation rapide des capacités de calcul des plateformes matérielles pour éliminer le goulot d'étranglement mémoire, tout en surpassant les méthodes de quantification de cache KV de pointe et en atteignant une précision proche de FP16 sur une large gamme de modèles.
English
Although LLM inference has emerged as a critical workload for many downstream
applications, efficiently inferring LLMs is challenging due to the substantial
memory footprint and bandwidth requirements. In parallel, compute capabilities
have steadily outpaced both memory capacity and bandwidth over the last few
decades, a trend that remains evident in modern GPU hardware and exacerbates
the challenge of LLM inference. As such, new algorithms are emerging that trade
increased computation for reduced memory operations. To that end, we present
XQuant, which takes advantage of this trend, enabling an order-of-magnitude
reduction in memory consumption through low-bit quantization with substantial
accuracy benefits relative to state-of-the-art KV cache quantization methods.
We accomplish this by quantizing and caching the layer input activations X,
instead of using standard KV caching, and then rematerializing the Keys and
Values on-the-fly during inference. This results in an immediate 2times
memory savings compared to KV caching. By applying XQuant, we achieve up to
sim 7.7times memory savings with <0.1 perplexity degradation compared to
the FP16 baseline. Furthermore, our approach leverages the fact that X values
are similar across layers. Building on this observation, we introduce
XQuant-CL, which exploits the cross-layer similarity in the X embeddings for
extreme compression. Across different models, XQuant-CL attains up to
10times memory savings relative to the FP16 baseline with only 0.01
perplexity degradation, and 12.5times memory savings with only 0.1
perplexity degradation. XQuant exploits the rapidly increasing compute
capabilities of hardware platforms to eliminate the memory bottleneck, while
surpassing state-of-the-art KV cache quantization methods and achieving
near-FP16 accuracy across a wide range of models.