Ottimizzazione dell'arrotondamento dei pesi tramite discesa del gradiente con segno per la quantizzazione di LLM
Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs
September 11, 2023
Autori: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv
cs.AI
Abstract
I Large Language Models (LLMs) hanno dimostrato capacità eccezionali nell'esecuzione di compiti legati al linguaggio. Tuttavia, il loro dispiegamento presenta sfide significative a causa dei considerevoli requisiti di memoria e archiviazione. In risposta a questo problema, la quantizzazione solo dei pesi, in particolare la quantizzazione a 3 e 4 bit solo dei pesi, è emersa come una delle soluzioni più valide. Man mano che il numero di bit diminuisce, la griglia di quantizzazione si amplia, sottolineando così l'importanza dell'arrotondamento verso l'alto e verso il basso. Mentre studi precedenti hanno dimostrato che il fine-tuning dell'arrotondamento verso l'alto e verso il basso con l'aggiunta di perturbazioni può migliorare l'accuratezza in alcuni scenari, il nostro studio è guidato dal confine preciso e limitato di queste perturbazioni, dove solo la soglia per alterare il valore di arrotondamento è significativa. Di conseguenza, proponiamo un approccio conciso e altamente efficace per ottimizzare il compito di arrotondamento dei pesi. Il nostro metodo, denominato SignRound, prevede un tuning leggero a blocchi utilizzando la discesa del gradiente con segno, consentendoci di ottenere risultati eccezionali entro 400 passaggi. SignRound supera il baseline consolidato dell'arrotondamento al più vicino (RTN) e compete in modo impressionante con i metodi recenti, senza introdurre ulteriori sovraccarichi di inferenza. Il codice sorgente sarà presto disponibile pubblicamente all'indirizzo https://github.com/intel/neural-compressor.
English
Large Language Models (LLMs) have proven their exceptional capabilities in
performing language-related tasks. However, their deployment poses significant
challenges due to their considerable memory and storage requirements. In
response to this issue, weight-only quantization, particularly 3 and 4-bit
weight-only quantization, has emerged as one of the most viable solutions. As
the number of bits decreases, the quantization grid broadens, thus emphasizing
the importance of up and down rounding. While previous studies have
demonstrated that fine-tuning up and down rounding with the addition of
perturbations can enhance accuracy in some scenarios, our study is driven by
the precise and limited boundary of these perturbations, where only the
threshold for altering the rounding value is of significance. Consequently, we
propose a concise and highly effective approach for optimizing the weight
rounding task. Our method, named SignRound, involves lightweight block-wise
tuning using signed gradient descent, enabling us to achieve outstanding
results within 400 steps. SignRound outperforms the established baseline of
rounding-to-nearest (RTN) and competes impressively against recent methods,
without introducing additional inference overhead. The source code will be
publicly available at https://github.com/intel/neural-compressor soon.