OneBit : Vers des modèles de langage massifs à bits extrêmement réduits
OneBit: Towards Extremely Low-bit Large Language Models
February 17, 2024
Auteurs: Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che
cs.AI
Résumé
La quantification des modèles utilise des valeurs à faible largeur de bits pour représenter les matrices de poids des modèles, ce qui constitue une approche prometteuse pour réduire à la fois le stockage et les surcharges computationnelles liées au déploiement des LLM très attendus. Cependant, les méthodes de quantification existantes subissent une dégradation sévère des performances lorsque la largeur de bits est extrêmement réduite, et se concentrent donc sur l'utilisation de valeurs 4 bits ou 8 bits pour quantifier les modèles. Cet article quantifie audacieusement les matrices de poids des LLM à 1 bit, ouvrant la voie à un déploiement des LLM avec une largeur de bits extrêmement faible. Pour cet objectif, nous introduisons un framework d'entraînement avec prise en compte de la quantification à 1 bit (QAT) nommé OneBit, incluant une nouvelle méthode de représentation des paramètres à 1 bit pour mieux quantifier les LLM ainsi qu'une méthode efficace d'initialisation des paramètres basée sur la décomposition matricielle pour améliorer la vitesse de convergence du framework QAT. Des résultats expérimentaux suffisants indiquent que OneBit atteint de bonnes performances (au moins 83 % des performances non quantifiées) avec des processus d'entraînement robustes en utilisant uniquement des matrices de poids à 1 bit.
English
Model quantification uses low bit-width values to represent the weight
matrices of models, which is a promising approach to reduce both storage and
computational overheads of deploying highly anticipated LLMs. However, existing
quantization methods suffer severe performance degradation when the bit-width
is extremely reduced, and thus focus on utilizing 4-bit or 8-bit values to
quantize models. This paper boldly quantizes the weight matrices of LLMs to
1-bit, paving the way for the extremely low bit-width deployment of LLMs. For
this target, we introduce a 1-bit quantization-aware training (QAT) framework
named OneBit, including a novel 1-bit parameter representation method to better
quantize LLMs as well as an effective parameter initialization method based on
matrix decomposition to improve the convergence speed of the QAT framework.
Sufficient experimental results indicate that OneBit achieves good performance
(at least 83% of the non-quantized performance) with robust training processes
when only using 1-bit weight matrices.Summary
AI-Generated Summary