Optimale Gehirnwiederherstellung für gemeinsame Quantisierung und Sparsifizierung von LLMs
Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs
September 14, 2025
papers.authors: Hang Guo, Yawei Li, Luca Benini
cs.AI
papers.abstract
Jüngste Fortschritte in der Kompression von Large Language Models (LLMs), wie Quantisierung und Pruning, haben bemerkenswerte Erfolge erzielt. Da diese Techniken jedoch allmählich an ihre jeweiligen Grenzen stoßen, wird es zunehmend schwieriger, sich für eine weitere Kompression auf eine einzelne Methode zu verlassen. In dieser Arbeit untersuchen wir eine alternative Lösung durch die Kombination von Quantisierung und Sparsity. Dieser gemeinsame Ansatz, obwohl vielversprechend, führt zu neuen Herausforderungen aufgrund der inhärent widersprüchlichen Anforderungen an die Gewichtsverteilungen: Quantisierung bevorzugt kompakte Bereiche, während Pruning von hoher Varianz profitiert. Um dieses Problem anzugehen, schlagen wir Optimal Brain Restoration (OBR) vor, ein allgemeines und trainingsfreies Framework, das Pruning und Quantisierung durch Fehlerkompensation zwischen beiden in Einklang bringt. OBR minimiert die Leistungseinbußen bei nachgelagerten Aufgaben, indem es auf einem zweistufigen Hessian-Ziel aufbaut, das dann durch Surrogat-Approximation in ein handhabbares Problem umformuliert und schließlich durch Gruppenfehlerkompensation zu einer geschlossenen Lösung führt. Experimente zeigen, dass OBR eine aggressive W4A4KV4-Quantisierung mit 50 % Sparsity auf bestehenden LLMs ermöglicht und im Vergleich zum FP16-dichten Baseline eine Beschleunigung von bis zu 4,72x und eine Speicherreduzierung von 6,4x erreicht.
English
Recent advances in Large Language Model (LLM) compression, such as
quantization and pruning, have achieved notable success. However, as these
techniques gradually approach their respective limits, relying on a single
method for further compression has become increasingly challenging. In this
work, we explore an alternative solution by combining quantization and
sparsity. This joint approach, though promising, introduces new difficulties
due to the inherently conflicting requirements on weight distributions:
quantization favors compact ranges, while pruning benefits from high variance.
To attack this problem, we propose Optimal Brain Restoration (OBR), a general
and training-free framework that aligns pruning and quantization by error
compensation between both. OBR minimizes performance degradation on downstream
tasks by building on a second-order Hessian objective, which is then
reformulated into a tractable problem through surrogate approximation and
ultimately reaches a closed-form solution via group error compensation.
Experiments show that OBR enables aggressive W4A4KV4 quantization with 50%
sparsity on existing LLMs, and delivers up to 4.72x speedup and 6.4x memory
reduction compared to the FP16-dense baseline.