ChatPaper.aiChatPaper

EasyQuant : Un algorithme de quantification efficace sans données pour les grands modèles de langage

EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs

March 5, 2024
Auteurs: Hanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang
cs.AI

Résumé

Les grands modèles de langage (LLMs) se sont avérés nettement supérieurs aux méthodes conventionnelles pour diverses tâches. Cependant, leurs calculs coûteux et leurs exigences élevées en mémoire rendent leur déploiement prohibitif. La quantification des modèles est une méthode efficace pour réduire cette surcharge. Le problème est que dans la plupart des travaux précédents, le modèle quantifié était calibré en utilisant peu d'échantillons des données d'entraînement, ce qui pourrait affecter la généralisation des LLMs quantifiés à des cas et tâches inconnus. Par conséquent, dans ce travail, nous explorons une question importante : pouvons-nous concevoir une méthode de quantification indépendante des données pour les LLMs afin de garantir leurs performances de généralisation ? Dans ce travail, nous proposons EasyQuant, un algorithme de quantification uniquement des poids, sans entraînement et indépendant des données, pour les LLMs. Notre observation indique que deux facteurs : les valeurs aberrantes dans les poids et les plages de quantification, sont essentiels pour réduire l'erreur de quantification. Par conséquent, dans EasyQuant, nous laissons les valeurs aberrantes (moins de 1%) inchangées et optimisons la plage de quantification pour réduire l'erreur de reconstruction. Avec ces méthodes, nous constatons, de manière surprenante, qu'EasyQuant atteint des performances comparables à celles du modèle original. Comme EasyQuant ne dépend d'aucune donnée d'entraînement, la performance de généralisation des LLMs quantifiés est assurée de manière sûre. De plus, EasyQuant peut être implémenté en parallèle, de sorte que le modèle quantifié peut être obtenu en quelques minutes, même pour des LLMs de plus de 100 milliards de paramètres. À notre connaissance, nous sommes les premiers à atteindre une performance de quantification quasi sans perte pour les LLMs dans un cadre indépendant des données, et notre algorithme fonctionne plus de 10 fois plus vite que les méthodes dépendantes des données.
English
Large language models (LLMs) have proven to be very superior to conventional methods in various tasks. However, their expensive computations and high memory requirements are prohibitive for deployment. Model quantization is an effective method for reducing this overhead. The problem is that in most previous works, the quantized model was calibrated using few samples from the training data, which might affect the generalization of the quantized LLMs to unknown cases and tasks. Hence in this work, we explore an important question: Can we design a data-independent quantization method for LLMs to guarantee its generalization performance? In this work, we propose EasyQuant, a training-free and data-independent weight-only quantization algorithm for LLMs. Our observation indicates that two factors: outliers in the weight and quantization ranges, are essential for reducing the quantization error. Therefore, in EasyQuant, we leave the outliers (less than 1%) unchanged and optimize the quantization range to reduce the reconstruction error. With these methods, we surprisingly find that EasyQuant achieves comparable performance to the original model. Since EasyQuant does not depend on any training data, the generalization performance of quantized LLMs is safely guaranteed. Moreover, EasyQuant can be implemented in parallel so that the quantized model could be attained in a few minutes even for LLMs over 100B. To our best knowledge, we are the first work that achieves almost lossless quantization performance for LLMs under a data-independent setting and our algorithm runs over 10 times faster than the data-dependent methods.
PDF133December 15, 2024