ChatPaper.aiChatPaper

Miscela di Scale: Binarizzazione Token-Adattiva Efficiente in Memoria per Modelli Linguistici di Grandi Dimensioni

Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models

June 18, 2024
Autori: Dongwon Jo, Taesu Kim, Yulhwa Kim, Jae-Joon Kim
cs.AI

Abstract

La binarizzazione, che converte i parametri di peso in valori binari, è emersa come una strategia efficace per ridurre le dimensioni dei grandi modelli linguistici (LLM). Tuttavia, le tecniche di binarizzazione tipiche riducono significativamente l'efficacia linguistica degli LLM. Per affrontare questo problema, introduciamo una nuova tecnica di binarizzazione chiamata Mixture of Scales (BinaryMoS). A differenza dei metodi convenzionali, BinaryMoS utilizza più esperti di scalatura per i pesi binari, fondendo dinamicamente questi esperti per ogni token per generare in modo adattivo fattori di scalatura. Questo approccio adattivo ai token potenzia la capacità rappresentativa degli LLM binarizzati consentendo aggiustamenti contestuali ai valori dei pesi binari. Inoltre, poiché questo processo adattivo coinvolge solo i fattori di scalatura e non l'intera matrice dei pesi, BinaryMoS mantiene un'efficienza di compressione simile ai metodi di binarizzazione statica tradizionali. I nostri risultati sperimentali rivelano che BinaryMoS supera le tecniche di binarizzazione convenzionali in vari compiti di elaborazione del linguaggio naturale e supera persino i metodi di quantizzazione a 2 bit, pur mantenendo dimensioni del modello simili alle tecniche di binarizzazione statica.
English
Binarization, which converts weight parameters to binary values, has emerged as an effective strategy to reduce the size of large language models (LLMs). However, typical binarization techniques significantly diminish linguistic effectiveness of LLMs. To address this issue, we introduce a novel binarization technique called Mixture of Scales (BinaryMoS). Unlike conventional methods, BinaryMoS employs multiple scaling experts for binary weights, dynamically merging these experts for each token to adaptively generate scaling factors. This token-adaptive approach boosts the representational power of binarized LLMs by enabling contextual adjustments to the values of binary weights. Moreover, because this adaptive process only involves the scaling factors rather than the entire weight matrix, BinaryMoS maintains compression efficiency similar to traditional static binarization methods. Our experimental results reveal that BinaryMoS surpasses conventional binarization techniques in various natural language processing tasks and even outperforms 2-bit quantization methods, all while maintaining similar model size to static binarization techniques.
PDF81February 7, 2026