OneBit: Auf dem Weg zu extrem niedrig-bitigen großen Sprachmodellen

papers.abstract

Die Modellquantisierung verwendet Werte mit niedriger Bitbreite, um die Gewichtsmatrizen von Modellen darzustellen, was ein vielversprechender Ansatz ist, um sowohl den Speicherbedarf als auch den Rechenaufwand bei der Bereitstellung von hoch erwarteten LLMs (Large Language Models) zu reduzieren. Allerdings leiden bestehende Quantisierungsmethoden unter erheblichen Leistungseinbußen, wenn die Bitbreite extrem reduziert wird, und konzentrieren sich daher auf die Verwendung von 4-Bit- oder 8-Bit-Werten zur Quantisierung von Modellen. Dieses Papier quantisiert die Gewichtsmatrizen von LLMs mutig auf 1-Bit und ebnet damit den Weg für die extrem niedrige Bitbreite bei der Bereitstellung von LLMs. Für dieses Ziel führen wir ein 1-Bit-Quantisierungsbewusstes Trainingsframework (QAT) namens OneBit ein, das eine neuartige 1-Bit-Parameterdarstellungsmethode zur besseren Quantisierung von LLMs sowie eine effektive Parameterinitialisierungsmethode basierend auf Matrixzerlegung zur Verbesserung der Konvergenzgeschwindigkeit des QAT-Frameworks umfasst. Umfangreiche experimentelle Ergebnisse zeigen, dass OneBit bei Verwendung von nur 1-Bit-Gewichtsmatrizen eine gute Leistung (mindestens 83 % der nicht quantisierten Leistung) mit robusten Trainingsprozessen erzielt.

English

Model quantification uses low bit-width values to represent the weight matrices of models, which is a promising approach to reduce both storage and computational overheads of deploying highly anticipated LLMs. However, existing quantization methods suffer severe performance degradation when the bit-width is extremely reduced, and thus focus on utilizing 4-bit or 8-bit values to quantize models. This paper boldly quantizes the weight matrices of LLMs to 1-bit, paving the way for the extremely low bit-width deployment of LLMs. For this target, we introduce a 1-bit quantization-aware training (QAT) framework named OneBit, including a novel 1-bit parameter representation method to better quantize LLMs as well as an effective parameter initialization method based on matrix decomposition to improve the convergence speed of the QAT framework. Sufficient experimental results indicate that OneBit achieves good performance (at least 83% of the non-quantized performance) with robust training processes when only using 1-bit weight matrices.

OneBit: Auf dem Weg zu extrem niedrig-bitigen großen Sprachmodellen

OneBit: Towards Extremely Low-bit Large Language Models

papers.abstract

Support