ZeroQuant(4+2) : Redéfinir la quantification des LLM avec une nouvelle stratégie centrée sur FP6 pour des tâches génératives diversifiées

papers.abstract

Cette étude examine les méthodes de quantification 4 bits comme GPTQ dans les grands modèles de langage (LLMs), mettant en évidence le sur-apprentissage de GPTQ et son amélioration limitée dans les tâches Zero-Shot. Alors que les travaux précédents se concentraient uniquement sur la mesure Zero-Shot, nous étendons le champ des tâches à des catégories plus génératives telles que la génération de code et le résumé abstrait, où nous avons constaté que la quantification INT4 peut considérablement sous-performer. Cependant, le simple passage à des formats de précision supérieure comme FP6 s'est avéré particulièrement difficile, et donc négligé, en raison de la mauvaise performance causée par le manque d'intégration sophistiquée et de stratégies d'accélération système sur le matériel IA actuel. Nos résultats montrent que FP6, même avec un schéma de quantification grossier, performe robustement à travers divers algorithmes et tâches, démontrant sa supériorité en termes de précision et de polyvalence. Notamment, avec la quantification FP6, le modèle \codestar-15B performe de manière comparable à sa version FP16 en génération de code, et pour les modèles plus petits comme le 406M, il se rapproche de leurs bases de référence en résumé. Aucun de ces résultats ne peut être atteint par INT4. Pour mieux s'adapter à divers matériels IA et atteindre la meilleure performance système, nous proposons une nouvelle conception 4+2 pour FP6 afin d'atteindre une latence similaire à la quantification fine-grain INT4 de pointe. Avec notre conception, FP6 peut devenir une solution prometteuse aux méthodes de quantification 4 bits actuellement utilisées dans les LLMs.

English

This study examines 4-bit quantization methods like GPTQ in large language models (LLMs), highlighting GPTQ's overfitting and limited enhancement in Zero-Shot tasks. While prior works merely focusing on zero-shot measurement, we extend task scope to more generative categories such as code generation and abstractive summarization, in which we found that INT4 quantization can significantly underperform. However, simply shifting to higher precision formats like FP6 has been particularly challenging, thus overlooked, due to poor performance caused by the lack of sophisticated integration and system acceleration strategies on current AI hardware. Our results show that FP6, even with a coarse-grain quantization scheme, performs robustly across various algorithms and tasks, demonstrating its superiority in accuracy and versatility. Notably, with the FP6 quantization, \codestar-15B model performs comparably to its FP16 counterpart in code generation, and for smaller models like the 406M it closely matches their baselines in summarization. Neither can be achieved by INT4. To better accommodate various AI hardware and achieve the best system performance, we propose a novel 4+2 design for FP6 to achieve similar latency to the state-of-the-art INT4 fine-grain quantization. With our design, FP6 can become a promising solution to the current 4-bit quantization methods used in LLMs.

ZeroQuant(4+2) : Redéfinir la quantification des LLM avec une nouvelle stratégie centrée sur FP6 pour des tâches génératives diversifiées

ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

papers.abstract

Support