ChatPaper.aiChatPaper

Optimale Gehirnwiederherstellung für gemeinsame Quantisierung und Sparsifizierung von LLMs

Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs

September 14, 2025
papers.authors: Hang Guo, Yawei Li, Luca Benini
cs.AI

papers.abstract

Jüngste Fortschritte in der Kompression von Large Language Models (LLMs), wie Quantisierung und Pruning, haben bemerkenswerte Erfolge erzielt. Da diese Techniken jedoch allmählich an ihre jeweiligen Grenzen stoßen, wird es zunehmend schwieriger, sich für eine weitere Kompression auf eine einzelne Methode zu verlassen. In dieser Arbeit untersuchen wir eine alternative Lösung durch die Kombination von Quantisierung und Sparsity. Dieser gemeinsame Ansatz, obwohl vielversprechend, führt zu neuen Herausforderungen aufgrund der inhärent widersprüchlichen Anforderungen an die Gewichtsverteilungen: Quantisierung bevorzugt kompakte Bereiche, während Pruning von hoher Varianz profitiert. Um dieses Problem anzugehen, schlagen wir Optimal Brain Restoration (OBR) vor, ein allgemeines und trainingsfreies Framework, das Pruning und Quantisierung durch Fehlerkompensation zwischen beiden in Einklang bringt. OBR minimiert die Leistungseinbußen bei nachgelagerten Aufgaben, indem es auf einem zweistufigen Hessian-Ziel aufbaut, das dann durch Surrogat-Approximation in ein handhabbares Problem umformuliert und schließlich durch Gruppenfehlerkompensation zu einer geschlossenen Lösung führt. Experimente zeigen, dass OBR eine aggressive W4A4KV4-Quantisierung mit 50 % Sparsity auf bestehenden LLMs ermöglicht und im Vergleich zum FP16-dichten Baseline eine Beschleunigung von bis zu 4,72x und eine Speicherreduzierung von 6,4x erreicht.
English
Recent advances in Large Language Model (LLM) compression, such as quantization and pruning, have achieved notable success. However, as these techniques gradually approach their respective limits, relying on a single method for further compression has become increasingly challenging. In this work, we explore an alternative solution by combining quantization and sparsity. This joint approach, though promising, introduces new difficulties due to the inherently conflicting requirements on weight distributions: quantization favors compact ranges, while pruning benefits from high variance. To attack this problem, we propose Optimal Brain Restoration (OBR), a general and training-free framework that aligns pruning and quantization by error compensation between both. OBR minimizes performance degradation on downstream tasks by building on a second-order Hessian objective, which is then reformulated into a tractable problem through surrogate approximation and ultimately reaches a closed-form solution via group error compensation. Experiments show that OBR enables aggressive W4A4KV4 quantization with 50% sparsity on existing LLMs, and delivers up to 4.72x speedup and 6.4x memory reduction compared to the FP16-dense baseline.
PDF12September 17, 2025