Mélange d'Échelles : Binarisation Adaptative par Token Économe en Mémoire pour les Grands Modèles de Langage

papers.abstract

La binarisation, qui convertit les paramètres de poids en valeurs binaires, s'est imposée comme une stratégie efficace pour réduire la taille des grands modèles de langage (LLM). Cependant, les techniques de binarisation classiques diminuent considérablement l'efficacité linguistique des LLM. Pour résoudre ce problème, nous introduisons une nouvelle technique de binarisation appelée Mixture of Scales (BinaryMoS). Contrairement aux méthodes conventionnelles, BinaryMoS utilise plusieurs experts de mise à l'échelle pour les poids binaires, fusionnant dynamiquement ces experts pour chaque token afin de générer de manière adaptative des facteurs d'échelle. Cette approche adaptative par token renforce la puissance de représentation des LLM binarisés en permettant des ajustements contextuels des valeurs des poids binaires. De plus, comme ce processus adaptatif ne concerne que les facteurs d'échelle et non l'ensemble de la matrice de poids, BinaryMoS maintient une efficacité de compression similaire aux méthodes de binarisation statique traditionnelles. Nos résultats expérimentaux montrent que BinaryMoS surpasse les techniques de binarisation conventionnelles dans diverses tâches de traitement du langage naturel et dépasse même les méthodes de quantification à 2 bits, tout en conservant une taille de modèle similaire aux techniques de binarisation statique.

English

Binarization, which converts weight parameters to binary values, has emerged as an effective strategy to reduce the size of large language models (LLMs). However, typical binarization techniques significantly diminish linguistic effectiveness of LLMs. To address this issue, we introduce a novel binarization technique called Mixture of Scales (BinaryMoS). Unlike conventional methods, BinaryMoS employs multiple scaling experts for binary weights, dynamically merging these experts for each token to adaptively generate scaling factors. This token-adaptive approach boosts the representational power of binarized LLMs by enabling contextual adjustments to the values of binary weights. Moreover, because this adaptive process only involves the scaling factors rather than the entire weight matrix, BinaryMoS maintains compression efficiency similar to traditional static binarization methods. Our experimental results reveal that BinaryMoS surpasses conventional binarization techniques in various natural language processing tasks and even outperforms 2-bit quantization methods, all while maintaining similar model size to static binarization techniques.

Mélange d'Échelles : Binarisation Adaptative par Token Économe en Mémoire pour les Grands Modèles de Langage

Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models

papers.abstract

Support