ChatPaper.aiChatPaper

Otimização do Arredondamento de Pesos via Gradiente Descendente com Sinal para a Quantização de LLMs

Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs

September 11, 2023
Autores: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades excepcionais na execução de tarefas relacionadas à linguagem. No entanto, sua implantação apresenta desafios significativos devido às consideráveis exigências de memória e armazenamento. Em resposta a esse problema, a quantização apenas de pesos, particularmente a quantização de 3 e 4 bits, emergiu como uma das soluções mais viáveis. À medida que o número de bits diminui, a grade de quantização se amplia, destacando a importância do arredondamento para cima e para baixo. Embora estudos anteriores tenham demonstrado que o ajuste fino do arredondamento para cima e para baixo com a adição de perturbações pode melhorar a precisão em alguns cenários, nosso estudo é motivado pelo limite preciso e restrito dessas perturbações, onde apenas o limiar para alterar o valor de arredondamento é significativo. Consequentemente, propomos uma abordagem concisa e altamente eficaz para otimizar a tarefa de arredondamento de pesos. Nosso método, denominado SignRound, envolve o ajuste leve em blocos usando descida de gradiente com sinal, permitindo-nos alcançar resultados excepcionais em até 400 etapas. O SignRound supera a linha de base estabelecida de arredondamento para o mais próximo (RTN) e compete de forma impressionante contra métodos recentes, sem introduzir sobrecarga adicional na inferência. O código-fonte estará disponível publicamente em https://github.com/intel/neural-compressor em breve.
English
Large Language Models (LLMs) have proven their exceptional capabilities in performing language-related tasks. However, their deployment poses significant challenges due to their considerable memory and storage requirements. In response to this issue, weight-only quantization, particularly 3 and 4-bit weight-only quantization, has emerged as one of the most viable solutions. As the number of bits decreases, the quantization grid broadens, thus emphasizing the importance of up and down rounding. While previous studies have demonstrated that fine-tuning up and down rounding with the addition of perturbations can enhance accuracy in some scenarios, our study is driven by the precise and limited boundary of these perturbations, where only the threshold for altering the rounding value is of significance. Consequently, we propose a concise and highly effective approach for optimizing the weight rounding task. Our method, named SignRound, involves lightweight block-wise tuning using signed gradient descent, enabling us to achieve outstanding results within 400 steps. SignRound outperforms the established baseline of rounding-to-nearest (RTN) and competes impressively against recent methods, without introducing additional inference overhead. The source code will be publicly available at https://github.com/intel/neural-compressor soon.
PDF112February 15, 2026