ChatPaper.aiChatPaper

Mischung von Skalen: Speichereffiziente Token-adaptive Binarisierung für große Sprachmodelle

Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models

June 18, 2024
papers.authors: Dongwon Jo, Taesu Kim, Yulhwa Kim, Jae-Joon Kim
cs.AI

papers.abstract

Die Binarisierung, die Gewichtsparameter in binäre Werte umwandelt, hat sich als eine effektive Strategie zur Reduzierung der Größe großer Sprachmodelle (LLMs) erwiesen. Allerdings verringern typische Binarisierungstechniken die sprachliche Effektivität von LLMs erheblich. Um dieses Problem zu lösen, stellen wir eine neue Binarisierungstechnik namens Mixture of Scales (BinaryMoS) vor. Im Gegensatz zu herkömmlichen Methoden verwendet BinaryMoS mehrere Skalierungsexperten für binäre Gewichte, die diese Experten dynamisch für jedes Token zusammenführen, um adaptiv Skalierungsfaktoren zu generieren. Dieser tokenadaptive Ansatz steigert die Repräsentationskraft binarisierter LLMs, indem er kontextuelle Anpassungen an die Werte binärer Gewichte ermöglicht. Darüber hinaus, da dieser adaptive Prozess nur die Skalierungsfaktoren betrifft und nicht die gesamte Gewichtsmatrix, behält BinaryMoS eine ähnliche Komprimierungseffizienz wie traditionelle statische Binarisierungsmethoden bei. Unsere experimentellen Ergebnisse zeigen, dass BinaryMoS herkömmliche Binarisierungstechniken in verschiedenen natürlichsprachlichen Verarbeitungsaufgaben übertrifft und sogar 2-Bit-Quantisierungsmethoden übertrifft, während es eine ähnliche Modellgröße wie statische Binarisierungstechniken beibehält.
English
Binarization, which converts weight parameters to binary values, has emerged as an effective strategy to reduce the size of large language models (LLMs). However, typical binarization techniques significantly diminish linguistic effectiveness of LLMs. To address this issue, we introduce a novel binarization technique called Mixture of Scales (BinaryMoS). Unlike conventional methods, BinaryMoS employs multiple scaling experts for binary weights, dynamically merging these experts for each token to adaptively generate scaling factors. This token-adaptive approach boosts the representational power of binarized LLMs by enabling contextual adjustments to the values of binary weights. Moreover, because this adaptive process only involves the scaling factors rather than the entire weight matrix, BinaryMoS maintains compression efficiency similar to traditional static binarization methods. Our experimental results reveal that BinaryMoS surpasses conventional binarization techniques in various natural language processing tasks and even outperforms 2-bit quantization methods, all while maintaining similar model size to static binarization techniques.
PDF81December 4, 2024