ChatPaper.aiChatPaper

XQuant: Durchbrechen der Speicherwand für LLM-Inferenz mit KV-Cache-Rematerialisierung

XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization

August 14, 2025
papers.authors: Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI

papers.abstract

Obwohl die Inferenz von LLMs (Large Language Models) als kritische Arbeitslast für viele nachgelagerte Anwendungen hervorgegangen ist, stellt die effiziente Inferenz von LLMs aufgrund des erheblichen Speicherbedarfs und der Bandbreitenanforderungen eine Herausforderung dar. Parallel dazu haben die Rechenfähigkeiten in den letzten Jahrzehnten sowohl die Speicherkapazität als auch die Bandbreite kontinuierlich übertroffen, ein Trend, der in moderner GPU-Hardware weiterhin erkennbar ist und die Herausforderung der LLM-Inferenz verschärft. Infolgedessen entstehen neue Algorithmen, die erhöhte Rechenleistung gegen reduzierte Speicheroperationen eintauschen. In diesem Zusammenhang präsentieren wir XQuant, das diesen Trend nutzt und eine Reduzierung des Speicherverbrauchs um eine Größenordnung durch Low-Bit-Quantisierung ermöglicht, wobei es erhebliche Genauigkeitsvorteile gegenüber modernsten KV-Cache-Quantisierungsmethoden bietet. Dies erreichen wir, indem wir die Eingabeaktivierungen X der Schicht quantisieren und zwischenspeichern, anstatt den Standard-KV-Cache zu verwenden, und dann die Schlüssel (Keys) und Werte (Values) während der Inferenz on-the-fly neu berechnen. Dies führt im Vergleich zum KV-Caching zu einer sofortigen Speichereinsparung um den Faktor 2. Durch die Anwendung von XQuant erreichen wir eine Speichereinsparung von bis zu ~7,7x mit einer Perplexitätsverschlechterung von <0,1 im Vergleich zum FP16-Baseline. Darüber hinaus nutzt unser Ansatz die Tatsache, dass die X-Werte über verschiedene Schichten hinweg ähnlich sind. Aufbauend auf dieser Beobachtung führen wir XQuant-CL ein, das die schichtübergreifende Ähnlichkeit in den X-Embeddings für extreme Kompression ausnutzt. Über verschiedene Modelle hinweg erreicht XQuant-CL eine Speichereinsparung von bis zu 10x im Vergleich zum FP16-Baseline bei einer Perplexitätsverschlechterung von nur 0,01 und eine Speichereinsparung von 12,5x bei einer Perplexitätsverschlechterung von nur 0,1. XQuant nutzt die rasant zunehmenden Rechenfähigkeiten von Hardwareplattformen, um den Speicher-Engpass zu beseitigen, während es modernste KV-Cache-Quantisierungsmethoden übertrifft und eine nahezu FP16-Genauigkeit über eine breite Palette von Modellen hinweg erreicht.
English
Although LLM inference has emerged as a critical workload for many downstream applications, efficiently inferring LLMs is challenging due to the substantial memory footprint and bandwidth requirements. In parallel, compute capabilities have steadily outpaced both memory capacity and bandwidth over the last few decades, a trend that remains evident in modern GPU hardware and exacerbates the challenge of LLM inference. As such, new algorithms are emerging that trade increased computation for reduced memory operations. To that end, we present XQuant, which takes advantage of this trend, enabling an order-of-magnitude reduction in memory consumption through low-bit quantization with substantial accuracy benefits relative to state-of-the-art KV cache quantization methods. We accomplish this by quantizing and caching the layer input activations X, instead of using standard KV caching, and then rematerializing the Keys and Values on-the-fly during inference. This results in an immediate 2times memory savings compared to KV caching. By applying XQuant, we achieve up to sim 7.7times memory savings with <0.1 perplexity degradation compared to the FP16 baseline. Furthermore, our approach leverages the fact that X values are similar across layers. Building on this observation, we introduce XQuant-CL, which exploits the cross-layer similarity in the X embeddings for extreme compression. Across different models, XQuant-CL attains up to 10times memory savings relative to the FP16 baseline with only 0.01 perplexity degradation, and 12.5times memory savings with only 0.1 perplexity degradation. XQuant exploits the rapidly increasing compute capabilities of hardware platforms to eliminate the memory bottleneck, while surpassing state-of-the-art KV cache quantization methods and achieving near-FP16 accuracy across a wide range of models.
PDF312August 18, 2025