ChatPaper.aiChatPaper

MixLLM : Quantification LLM avec précision mixte globale entre les caractéristiques de sortie et conception système hautement efficace

MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design

December 19, 2024
Auteurs: Zhen Zheng, Xiaonan Song, Chuanjie Liu
cs.AI

Résumé

La quantification est devenue l'une des méthodologies les plus efficaces pour compresser les LLM en une taille plus petite. Cependant, les solutions de quantification existantes montrent encore des limitations, soit une baisse de précision non négligeable, soit une inefficacité du système. Dans cet article, nous effectuons une analyse approfondie des principes généraux de quantification sur leur effet sur le triangle de précision, de consommation de mémoire et d'efficacité du système. Nous proposons MixLLM qui explore le nouvel espace d'optimisation de la quantification à précision mixte entre les caractéristiques de sortie, en se basant sur l'idée que différentes caractéristiques de sortie ont une importance différente dans le modèle. MixLLM identifie les caractéristiques de sortie ayant une forte saillance dans la vue globale plutôt que dans chaque couche individuelle, attribuant efficacement une largeur de bits plus grande aux caractéristiques de sortie qui en ont le plus besoin pour obtenir une bonne précision avec une faible consommation de mémoire. Nous présentons le point optimal de configuration de quantification de la co-conception algorithme-système qui conduit à une haute précision et une efficacité du système. Pour relever le défi du système, nous concevons la déquantification en deux étapes pour utiliser facilement le Tensor Core int8 et la conversion rapide des types de données pour réduire significativement les surcoûts de déquantification, et présentons le pipeline logiciel pour superposer l'accès mémoire, la déquantification et le MatMul de la meilleure façon possible. Des expériences approfondies montrent qu'avec seulement 10% de bits supplémentaires, l'augmentation de PPL peut être réduite d'environ 0,5 dans l'état de l'art à environ 0,2 pour Llama 3.1 70B, tandis que en moyenne MMLU-Pro s'améliore de 0,93 par rapport à l'état de l'art de trois modèles populaires. En plus de sa précision supérieure, MixLLM atteint également une efficacité système de pointe.
English
Quantization has become one of the most effective methodologies to compress LLMs into smaller size. However, the existing quantization solutions still show limitations of either non-negligible accuracy drop or system inefficiency. In this paper, we make a comprehensive analysis of the general quantization principles on their effect to the triangle of accuracy, memory consumption and system efficiency. We propose MixLLM that explores the new optimization space of mixed-precision quantization between output features based on the insight that different output features matter differently in the model. MixLLM identifies the output features with high salience in the global view rather than within each single layer, effectively assigning the larger bit-width to output features that need it most to achieve good accuracy with low memory consumption. We present the sweet spot of quantization configuration of algorithm-system co-design that leads to high accuracy and system efficiency. To address the system challenge, we design the two-step dequantization to make use of the int8 Tensor Core easily and fast data type conversion to reduce dequantization overhead significantly, and present the software pipeline to overlap the memory access, dequantization and the MatMul to the best. Extensive experiments show that with only 10% more bits, the PPL increasement can be reduced from about 0.5 in SOTA to within 0.2 for Llama 3.1 70B, while on average MMLU-Pro improves by 0.93 over the SOTA of three popular models. In addition to its superior accuracy, MixLLM also achieves state-of-the-art system efficiency.

Summary

AI-Generated Summary

PDF145December 23, 2024