Optimización del redondeo de pesos mediante descenso de gradiente con signo para la cuantización de modelos de lenguaje grandes (LLMs)
Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs
September 11, 2023
Autores: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales para realizar tareas relacionadas con el lenguaje. Sin embargo, su implementación plantea desafíos significativos debido a sus considerables requisitos de memoria y almacenamiento. En respuesta a este problema, la cuantización solo de pesos, particularmente la cuantización de 3 y 4 bits solo de pesos, ha surgido como una de las soluciones más viables. A medida que disminuye el número de bits, la cuadrícula de cuantización se amplía, lo que enfatiza la importancia del redondeo hacia arriba y hacia abajo. Si bien estudios previos han demostrado que el ajuste fino del redondeo hacia arriba y hacia abajo con la adición de perturbaciones puede mejorar la precisión en algunos escenarios, nuestra investigación se centra en el límite preciso y limitado de estas perturbaciones, donde solo el umbral para alterar el valor de redondeo es significativo. En consecuencia, proponemos un enfoque conciso y altamente efectivo para optimizar la tarea de redondeo de pesos. Nuestro método, denominado SignRound, implica un ajuste ligero por bloques utilizando el descenso de gradiente con signo, lo que nos permite obtener resultados sobresalientes en menos de 400 pasos. SignRound supera la línea de base establecida del redondeo al más cercano (RTN, por sus siglas en inglés) y compite de manera impresionante contra métodos recientes, sin introducir sobrecargas adicionales en la inferencia. El código fuente estará disponible públicamente en https://github.com/intel/neural-compressor próximamente.
English
Large Language Models (LLMs) have proven their exceptional capabilities in
performing language-related tasks. However, their deployment poses significant
challenges due to their considerable memory and storage requirements. In
response to this issue, weight-only quantization, particularly 3 and 4-bit
weight-only quantization, has emerged as one of the most viable solutions. As
the number of bits decreases, the quantization grid broadens, thus emphasizing
the importance of up and down rounding. While previous studies have
demonstrated that fine-tuning up and down rounding with the addition of
perturbations can enhance accuracy in some scenarios, our study is driven by
the precise and limited boundary of these perturbations, where only the
threshold for altering the rounding value is of significance. Consequently, we
propose a concise and highly effective approach for optimizing the weight
rounding task. Our method, named SignRound, involves lightweight block-wise
tuning using signed gradient descent, enabling us to achieve outstanding
results within 400 steps. SignRound outperforms the established baseline of
rounding-to-nearest (RTN) and competes impressively against recent methods,
without introducing additional inference overhead. The source code will be
publicly available at https://github.com/intel/neural-compressor soon.