"Donnez-moi du BF16 ou donnez-moi la mort"? Compromis entre précision et performance dans la quantification des LLM"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM
Quantization
Malgré la popularité de la quantification des grands modèles de langage (LLM) pour l'accélération de l'inférence, une incertitude significative persiste concernant les compromis entre précision et performance associés à divers formats de quantification. Nous présentons une étude empirique complète de la précision quantifiée, évaluant les formats de quantification populaires (FP8, INT8, INT4) sur des références académiques et des tâches du monde réel, sur l'ensemble de la famille de modèles Llama-3.1. De plus, notre étude examine la différence de texte généré par les modèles quantifiés par rapport à leurs homologues non compressés. Au-delà des références, nous présentons également quelques améliorations de la quantification qui nous ont permis d'obtenir des résultats de récupération de précision de pointe. Notre enquête, englobant plus de 500 000 évaluations individuelles, révèle plusieurs conclusions clés : (1) la quantification des poids et activations en FP8 (W8A8-FP) est sans perte sur toutes les échelles de modèle, (2) la quantification des poids et activations en INT8 (W8A8-INT), lorsqu'elle est correctement réglée, entraîne une dégradation de précision étonnamment faible de 1 à 3 %, et (3) la quantification des poids uniquement en INT4 (W4A16-INT) est compétitive avec la quantification des poids et activations en entiers sur 8 bits. Pour répondre à la question du "meilleur" format pour un environnement de déploiement donné, nous menons une analyse des performances d'inférence en utilisant le populaire framework open-source vLLM sur diverses architectures GPU. Nous constatons que W4A16 offre la meilleure rentabilité pour les déploiements synchrones, et pour les déploiements asynchrones sur des GPU de milieu de gamme. Dans le même temps, les formats W8A8 excellent dans le déploiement asynchrone en "batch continu" de modèles de taille moyenne et grande sur des GPU haut de gamme. Nos résultats fournissent un ensemble de lignes directrices pratiques pour le déploiement de LLM quantifiés à travers différentes échelles et exigences de performance.