Optimización del redondeo de pesos mediante descenso de gradiente con signo para la cuantización de modelos de lenguaje grandes (LLMs)

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales para realizar tareas relacionadas con el lenguaje. Sin embargo, su implementación plantea desafíos significativos debido a sus considerables requisitos de memoria y almacenamiento. En respuesta a este problema, la cuantización solo de pesos, particularmente la cuantización de 3 y 4 bits solo de pesos, ha surgido como una de las soluciones más viables. A medida que disminuye el número de bits, la cuadrícula de cuantización se amplía, lo que enfatiza la importancia del redondeo hacia arriba y hacia abajo. Si bien estudios previos han demostrado que el ajuste fino del redondeo hacia arriba y hacia abajo con la adición de perturbaciones puede mejorar la precisión en algunos escenarios, nuestra investigación se centra en el límite preciso y limitado de estas perturbaciones, donde solo el umbral para alterar el valor de redondeo es significativo. En consecuencia, proponemos un enfoque conciso y altamente efectivo para optimizar la tarea de redondeo de pesos. Nuestro método, denominado SignRound, implica un ajuste ligero por bloques utilizando el descenso de gradiente con signo, lo que nos permite obtener resultados sobresalientes en menos de 400 pasos. SignRound supera la línea de base establecida del redondeo al más cercano (RTN, por sus siglas en inglés) y compite de manera impresionante contra métodos recientes, sin introducir sobrecargas adicionales en la inferencia. El código fuente estará disponible públicamente en https://github.com/intel/neural-compressor próximamente.

English

Large Language Models (LLMs) have proven their exceptional capabilities in performing language-related tasks. However, their deployment poses significant challenges due to their considerable memory and storage requirements. In response to this issue, weight-only quantization, particularly 3 and 4-bit weight-only quantization, has emerged as one of the most viable solutions. As the number of bits decreases, the quantization grid broadens, thus emphasizing the importance of up and down rounding. While previous studies have demonstrated that fine-tuning up and down rounding with the addition of perturbations can enhance accuracy in some scenarios, our study is driven by the precise and limited boundary of these perturbations, where only the threshold for altering the rounding value is of significance. Consequently, we propose a concise and highly effective approach for optimizing the weight rounding task. Our method, named SignRound, involves lightweight block-wise tuning using signed gradient descent, enabling us to achieve outstanding results within 400 steps. SignRound outperforms the established baseline of rounding-to-nearest (RTN) and competes impressively against recent methods, without introducing additional inference overhead. The source code will be publicly available at https://github.com/intel/neural-compressor soon.

Optimización del redondeo de pesos mediante descenso de gradiente con signo para la cuantización de modelos de lenguaje grandes (LLMs)

Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs

Resumen

Support