ChatPaper.aiChatPaper

La Geometría de la Cuantización de LLM: GPTQ como el Algoritmo del Plano Más Cercano de Babai

The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

July 24, 2025
Autores: Jiale Chen, Torsten Hoefler, Dan Alistarh
cs.AI

Resumen

La cuantización de los pesos de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) de 16 bits a un ancho de bits inferior es el enfoque de facto para implementar transformadores masivos en aceleradores más asequibles. GPTQ surgió como uno de los métodos estándar para la cuantización post-entrenamiento en una sola pasada a escala de LLM. Sin embargo, su funcionamiento interno se describe como una secuencia de actualizaciones algebraicas ad hoc que oscurecen cualquier significado geométrico o garantías en el peor de los casos. En este trabajo, demostramos que, cuando se ejecuta de atrás hacia adelante (desde la última hasta la primera dimensión) para una capa lineal, GPTQ es matemáticamente idéntico al algoritmo del plano más cercano de Babai para el problema clásico del vector más cercano (CVP, por sus siglas en inglés) en una red definida por la matriz Hessiana de las entradas de la capa. Esta equivalencia se basa en un argumento matemático sofisticado y tiene dos consecuencias analíticas: (i) el paso de propagación de errores de GPTQ adquiere una interpretación geométrica intuitiva; (ii) GPTQ hereda el límite superior de error del algoritmo de Babai bajo la condición de no recorte. En conjunto, estos resultados sitúan a GPTQ sobre una base teórica sólida y abren la puerta a la importación de décadas de progreso en algoritmos de redes hacia el diseño de futuros algoritmos de cuantización para modelos de miles de millones de parámetros.
English
Quantizing the weights of large language models (LLMs) from 16-bit to lower bitwidth is the de facto approach to deploy massive transformers onto more affordable accelerators. GPTQ emerged as one of the standard methods for one-shot post-training quantization at LLM scale. Yet, its inner workings are described as a sequence of ad-hoc algebraic updates that obscure any geometric meaning or worst-case guarantees. In this work, we show that, when executed back-to-front (from the last to first dimension) for a linear layer, GPTQ is mathematically identical to Babai's nearest plane algorithm for the classical closest vector problem (CVP) on a lattice defined by the Hessian matrix of the layer's inputs. This equivalence is based on a sophisticated mathematical argument, and has two analytical consequences: (i) the GPTQ error propagation step gains an intuitive geometric interpretation; (ii) GPTQ inherits the error upper bound of Babai's algorithm under the no-clipping condition. Taken together, these results place GPTQ on firm theoretical footing and open the door to importing decades of progress in lattice algorithms towards the design of future quantization algorithms for billion-parameter models.
PDF332July 28, 2025