Optimaliseer Gewichtsafronding via Signed Gradient Descent voor de Kwantisatie van LLM's
Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs
September 11, 2023
Auteurs: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben hun uitzonderlijke capaciteiten bewezen bij het uitvoeren van taakgerelateerde taken. Hun implementatie brengt echter aanzienlijke uitdagingen met zich mee vanwege de aanzienlijke geheugen- en opslagvereisten. Als reactie op dit probleem is gewichtsgewijze kwantisatie, met name 3- en 4-bit gewichtsgewijze kwantisatie, naar voren gekomen als een van de meest haalbare oplossingen. Naarmate het aantal bits afneemt, wordt het kwantisatierooster breder, wat het belang van naar boven en naar beneden afronden benadrukt. Hoewel eerdere studies hebben aangetoond dat het finetunen van naar boven en naar beneden afronden met de toevoeging van verstoringen de nauwkeurigheid in sommige scenario's kan verbeteren, wordt onze studie gedreven door de precieze en beperkte grens van deze verstoringen, waarbij alleen de drempel voor het wijzigen van de afrondingswaarde van belang is. Daarom stellen we een beknopte en zeer effectieve aanpak voor om de taak van gewichtsafronding te optimaliseren. Onze methode, genaamd SignRound, omvat lichtgewicht bloksgewijze afstemming met behulp van signed gradient descent, waardoor we uitstekende resultaten kunnen behalen binnen 400 stappen. SignRound overtreft de gevestigde baseline van afronden-naar-dichtstbijzijnde (RTN) en kan indrukwekkend concurreren met recente methoden, zonder extra inferentie-overhead te introduceren. De broncode zal binnenkort openbaar beschikbaar zijn op https://github.com/intel/neural-compressor.
English
Large Language Models (LLMs) have proven their exceptional capabilities in
performing language-related tasks. However, their deployment poses significant
challenges due to their considerable memory and storage requirements. In
response to this issue, weight-only quantization, particularly 3 and 4-bit
weight-only quantization, has emerged as one of the most viable solutions. As
the number of bits decreases, the quantization grid broadens, thus emphasizing
the importance of up and down rounding. While previous studies have
demonstrated that fine-tuning up and down rounding with the addition of
perturbations can enhance accuracy in some scenarios, our study is driven by
the precise and limited boundary of these perturbations, where only the
threshold for altering the rounding value is of significance. Consequently, we
propose a concise and highly effective approach for optimizing the weight
rounding task. Our method, named SignRound, involves lightweight block-wise
tuning using signed gradient descent, enabling us to achieve outstanding
results within 400 steps. SignRound outperforms the established baseline of
rounding-to-nearest (RTN) and competes impressively against recent methods,
without introducing additional inference overhead. The source code will be
publicly available at https://github.com/intel/neural-compressor soon.