Optimisation de l'arrondi des poids via la descente de gradient signée pour la quantification des grands modèles de langage
Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs
September 11, 2023
Auteurs: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré leurs capacités exceptionnelles dans l'exécution de tâches liées au langage. Cependant, leur déploiement pose des défis importants en raison de leurs besoins considérables en mémoire et en stockage. Pour répondre à ce problème, la quantification des poids uniquement, en particulier la quantification des poids en 3 et 4 bits, s'est imposée comme l'une des solutions les plus viables. À mesure que le nombre de bits diminue, la grille de quantification s'élargit, ce qui met en évidence l'importance de l'arrondi vers le haut et vers le bas. Bien que des études antérieures aient montré que l'affinage de l'arrondi vers le haut et vers le bas avec l'ajout de perturbations peut améliorer la précision dans certains scénarios, notre étude est motivée par la limite précise et restreinte de ces perturbations, où seul le seuil pour modifier la valeur d'arrondi est significatif. Par conséquent, nous proposons une approche concise et hautement efficace pour optimiser la tâche d'arrondi des poids. Notre méthode, nommée SignRound, implique un réglage léger par blocs utilisant la descente de gradient signée, nous permettant d'obtenir des résultats exceptionnels en moins de 400 étapes. SignRound surpasse la référence établie de l'arrondi au plus proche (RTN) et rivalise de manière impressionnante avec les méthodes récentes, sans introduire de surcharge supplémentaire lors de l'inférence. Le code source sera bientôt disponible publiquement à l'adresse https://github.com/intel/neural-compressor.
English
Large Language Models (LLMs) have proven their exceptional capabilities in
performing language-related tasks. However, their deployment poses significant
challenges due to their considerable memory and storage requirements. In
response to this issue, weight-only quantization, particularly 3 and 4-bit
weight-only quantization, has emerged as one of the most viable solutions. As
the number of bits decreases, the quantization grid broadens, thus emphasizing
the importance of up and down rounding. While previous studies have
demonstrated that fine-tuning up and down rounding with the addition of
perturbations can enhance accuracy in some scenarios, our study is driven by
the precise and limited boundary of these perturbations, where only the
threshold for altering the rounding value is of significance. Consequently, we
propose a concise and highly effective approach for optimizing the weight
rounding task. Our method, named SignRound, involves lightweight block-wise
tuning using signed gradient descent, enabling us to achieve outstanding
results within 400 steps. SignRound outperforms the established baseline of
rounding-to-nearest (RTN) and competes impressively against recent methods,
without introducing additional inference overhead. The source code will be
publicly available at https://github.com/intel/neural-compressor soon.