Mélange d'Échelles : Binarisation Adaptative par Token Économe en Mémoire pour les Grands Modèles de Langage
Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models
June 18, 2024
Auteurs: Dongwon Jo, Taesu Kim, Yulhwa Kim, Jae-Joon Kim
cs.AI
Résumé
La binarisation, qui convertit les paramètres de poids en valeurs binaires, s'est imposée comme une stratégie efficace pour réduire la taille des grands modèles de langage (LLM). Cependant, les techniques de binarisation classiques diminuent considérablement l'efficacité linguistique des LLM. Pour résoudre ce problème, nous introduisons une nouvelle technique de binarisation appelée Mixture of Scales (BinaryMoS). Contrairement aux méthodes conventionnelles, BinaryMoS utilise plusieurs experts de mise à l'échelle pour les poids binaires, fusionnant dynamiquement ces experts pour chaque token afin de générer de manière adaptative des facteurs d'échelle. Cette approche adaptative par token renforce la puissance de représentation des LLM binarisés en permettant des ajustements contextuels des valeurs des poids binaires. De plus, comme ce processus adaptatif ne concerne que les facteurs d'échelle et non l'ensemble de la matrice de poids, BinaryMoS maintient une efficacité de compression similaire aux méthodes de binarisation statique traditionnelles. Nos résultats expérimentaux montrent que BinaryMoS surpasse les techniques de binarisation conventionnelles dans diverses tâches de traitement du langage naturel et dépasse même les méthodes de quantification à 2 bits, tout en conservant une taille de modèle similaire aux techniques de binarisation statique.
English
Binarization, which converts weight parameters to binary values, has emerged
as an effective strategy to reduce the size of large language models (LLMs).
However, typical binarization techniques significantly diminish linguistic
effectiveness of LLMs. To address this issue, we introduce a novel binarization
technique called Mixture of Scales (BinaryMoS). Unlike conventional methods,
BinaryMoS employs multiple scaling experts for binary weights, dynamically
merging these experts for each token to adaptively generate scaling factors.
This token-adaptive approach boosts the representational power of binarized
LLMs by enabling contextual adjustments to the values of binary weights.
Moreover, because this adaptive process only involves the scaling factors
rather than the entire weight matrix, BinaryMoS maintains compression
efficiency similar to traditional static binarization methods. Our experimental
results reveal that BinaryMoS surpasses conventional binarization techniques in
various natural language processing tasks and even outperforms 2-bit
quantization methods, all while maintaining similar model size to static
binarization techniques.Summary
AI-Generated Summary