OneBit: Auf dem Weg zu extrem niedrig-bitigen großen Sprachmodellen
OneBit: Towards Extremely Low-bit Large Language Models
February 17, 2024
Autoren: Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che
cs.AI
Zusammenfassung
Die Modellquantisierung verwendet Werte mit niedriger Bitbreite, um die Gewichtsmatrizen von Modellen darzustellen, was ein vielversprechender Ansatz ist, um sowohl den Speicherbedarf als auch den Rechenaufwand bei der Bereitstellung von hoch erwarteten LLMs (Large Language Models) zu reduzieren. Allerdings leiden bestehende Quantisierungsmethoden unter erheblichen Leistungseinbußen, wenn die Bitbreite extrem reduziert wird, und konzentrieren sich daher auf die Verwendung von 4-Bit- oder 8-Bit-Werten zur Quantisierung von Modellen. Dieses Papier quantisiert die Gewichtsmatrizen von LLMs mutig auf 1-Bit und ebnet damit den Weg für die extrem niedrige Bitbreite bei der Bereitstellung von LLMs. Für dieses Ziel führen wir ein 1-Bit-Quantisierungsbewusstes Trainingsframework (QAT) namens OneBit ein, das eine neuartige 1-Bit-Parameterdarstellungsmethode zur besseren Quantisierung von LLMs sowie eine effektive Parameterinitialisierungsmethode basierend auf Matrixzerlegung zur Verbesserung der Konvergenzgeschwindigkeit des QAT-Frameworks umfasst. Umfangreiche experimentelle Ergebnisse zeigen, dass OneBit bei Verwendung von nur 1-Bit-Gewichtsmatrizen eine gute Leistung (mindestens 83 % der nicht quantisierten Leistung) mit robusten Trainingsprozessen erzielt.
English
Model quantification uses low bit-width values to represent the weight
matrices of models, which is a promising approach to reduce both storage and
computational overheads of deploying highly anticipated LLMs. However, existing
quantization methods suffer severe performance degradation when the bit-width
is extremely reduced, and thus focus on utilizing 4-bit or 8-bit values to
quantize models. This paper boldly quantizes the weight matrices of LLMs to
1-bit, paving the way for the extremely low bit-width deployment of LLMs. For
this target, we introduce a 1-bit quantization-aware training (QAT) framework
named OneBit, including a novel 1-bit parameter representation method to better
quantize LLMs as well as an effective parameter initialization method based on
matrix decomposition to improve the convergence speed of the QAT framework.
Sufficient experimental results indicate that OneBit achieves good performance
(at least 83% of the non-quantized performance) with robust training processes
when only using 1-bit weight matrices.Summary
AI-Generated Summary