XQuant: Durchbrechen der Speicherwand für LLM-Inferenz mit KV-Cache-Rematerialisierung
XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization
August 14, 2025
papers.authors: Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
papers.abstract
Obwohl die Inferenz von LLMs (Large Language Models) als kritische Arbeitslast für viele nachgelagerte Anwendungen hervorgegangen ist, stellt die effiziente Inferenz von LLMs aufgrund des erheblichen Speicherbedarfs und der Bandbreitenanforderungen eine Herausforderung dar. Parallel dazu haben die Rechenfähigkeiten in den letzten Jahrzehnten sowohl die Speicherkapazität als auch die Bandbreite kontinuierlich übertroffen, ein Trend, der in moderner GPU-Hardware weiterhin erkennbar ist und die Herausforderung der LLM-Inferenz verschärft. Infolgedessen entstehen neue Algorithmen, die erhöhte Rechenleistung gegen reduzierte Speicheroperationen eintauschen. In diesem Zusammenhang präsentieren wir XQuant, das diesen Trend nutzt und eine Reduzierung des Speicherverbrauchs um eine Größenordnung durch Low-Bit-Quantisierung ermöglicht, wobei es erhebliche Genauigkeitsvorteile gegenüber modernsten KV-Cache-Quantisierungsmethoden bietet. Dies erreichen wir, indem wir die Eingabeaktivierungen X der Schicht quantisieren und zwischenspeichern, anstatt den Standard-KV-Cache zu verwenden, und dann die Schlüssel (Keys) und Werte (Values) während der Inferenz on-the-fly neu berechnen. Dies führt im Vergleich zum KV-Caching zu einer sofortigen Speichereinsparung um den Faktor 2. Durch die Anwendung von XQuant erreichen wir eine Speichereinsparung von bis zu ~7,7x mit einer Perplexitätsverschlechterung von <0,1 im Vergleich zum FP16-Baseline. Darüber hinaus nutzt unser Ansatz die Tatsache, dass die X-Werte über verschiedene Schichten hinweg ähnlich sind. Aufbauend auf dieser Beobachtung führen wir XQuant-CL ein, das die schichtübergreifende Ähnlichkeit in den X-Embeddings für extreme Kompression ausnutzt. Über verschiedene Modelle hinweg erreicht XQuant-CL eine Speichereinsparung von bis zu 10x im Vergleich zum FP16-Baseline bei einer Perplexitätsverschlechterung von nur 0,01 und eine Speichereinsparung von 12,5x bei einer Perplexitätsverschlechterung von nur 0,1. XQuant nutzt die rasant zunehmenden Rechenfähigkeiten von Hardwareplattformen, um den Speicher-Engpass zu beseitigen, während es modernste KV-Cache-Quantisierungsmethoden übertrifft und eine nahezu FP16-Genauigkeit über eine breite Palette von Modellen hinweg erreicht.
English
Although LLM inference has emerged as a critical workload for many downstream
applications, efficiently inferring LLMs is challenging due to the substantial
memory footprint and bandwidth requirements. In parallel, compute capabilities
have steadily outpaced both memory capacity and bandwidth over the last few
decades, a trend that remains evident in modern GPU hardware and exacerbates
the challenge of LLM inference. As such, new algorithms are emerging that trade
increased computation for reduced memory operations. To that end, we present
XQuant, which takes advantage of this trend, enabling an order-of-magnitude
reduction in memory consumption through low-bit quantization with substantial
accuracy benefits relative to state-of-the-art KV cache quantization methods.
We accomplish this by quantizing and caching the layer input activations X,
instead of using standard KV caching, and then rematerializing the Keys and
Values on-the-fly during inference. This results in an immediate 2times
memory savings compared to KV caching. By applying XQuant, we achieve up to
sim 7.7times memory savings with <0.1 perplexity degradation compared to
the FP16 baseline. Furthermore, our approach leverages the fact that X values
are similar across layers. Building on this observation, we introduce
XQuant-CL, which exploits the cross-layer similarity in the X embeddings for
extreme compression. Across different models, XQuant-CL attains up to
10times memory savings relative to the FP16 baseline with only 0.01
perplexity degradation, and 12.5times memory savings with only 0.1
perplexity degradation. XQuant exploits the rapidly increasing compute
capabilities of hardware platforms to eliminate the memory bottleneck, while
surpassing state-of-the-art KV cache quantization methods and achieving
near-FP16 accuracy across a wide range of models.