ChatPaper.aiChatPaper

Optimale Hersenrestauratie voor Gezamenlijke Kwantisering en Verspreiding van LLM's

Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs

September 14, 2025
Auteurs: Hang Guo, Yawei Li, Luca Benini
cs.AI

Samenvatting

Recente vooruitgang in compressie van Large Language Models (LLM's), zoals kwantisering en pruning, heeft aanzienlijk succes geboekt. Naarmate deze technieken echter geleidelijk hun respectievelijke grenzen naderen, is het steeds uitdagender geworden om te vertrouwen op een enkele methode voor verdere compressie. In dit werk verkennen we een alternatieve oplossing door kwantisering en sparsity te combineren. Deze gezamenlijke aanpak, hoewel veelbelovend, introduceert nieuwe moeilijkheden vanwege de inherent tegenstrijdige vereisten voor gewichtsverdelingen: kwantisering heeft baat bij compacte bereiken, terwijl pruning profiteert van hoge variantie. Om dit probleem aan te pakken, stellen we Optimal Brain Restoration (OBR) voor, een algemeen en trainingsvrij raamwerk dat pruning en kwantisering uitlijnt door middel van foutcompensatie tussen beide. OBR minimaliseert prestatieverlies bij downstream taken door voort te bouwen op een tweede-orde Hessiaan-doelstelling, die vervolgens wordt hervormd tot een behapbaar probleem via surrogaatbenadering en uiteindelijk een gesloten-vorm oplossing bereikt via groepsfoutcompensatie. Experimenten tonen aan dat OBR agressieve W4A4KV4-kwantisering met 50% sparsity mogelijk maakt op bestaande LLM's, en tot 4,72x versnelling en 6,4x geheugenreductie oplevert in vergelijking met de FP16-dense baseline.
English
Recent advances in Large Language Model (LLM) compression, such as quantization and pruning, have achieved notable success. However, as these techniques gradually approach their respective limits, relying on a single method for further compression has become increasingly challenging. In this work, we explore an alternative solution by combining quantization and sparsity. This joint approach, though promising, introduces new difficulties due to the inherently conflicting requirements on weight distributions: quantization favors compact ranges, while pruning benefits from high variance. To attack this problem, we propose Optimal Brain Restoration (OBR), a general and training-free framework that aligns pruning and quantization by error compensation between both. OBR minimizes performance degradation on downstream tasks by building on a second-order Hessian objective, which is then reformulated into a tractable problem through surrogate approximation and ultimately reaches a closed-form solution via group error compensation. Experiments show that OBR enables aggressive W4A4KV4 quantization with 50% sparsity on existing LLMs, and delivers up to 4.72x speedup and 6.4x memory reduction compared to the FP16-dense baseline.
PDF22September 19, 2025