NanoQuant: Quantização Eficiente Sub-1-Bit de Modelos de Linguagem de Grande Porte

Resumo

A quantização apenas de pesos tornou-se uma abordagem padrão para servir grandes modelos de linguagem (LLMs) de forma eficiente. No entanto, os métodos existentes falham em comprimir modelos eficientemente para níveis binários (1 bit), pois ou exigem grandes quantidades de dados e poder computacional ou incorrem em armazenamento adicional. Neste trabalho, propomos o NanoQuant, o primeiro método de quantização pós-treinamento (PTQ) a comprimir LLMs para níveis binários e sub-1-bit. O NanoQuant formula a quantização como um problema de fatoração binária de baixo posto (low-rank), comprimindo os pesos em precisão total para matrizes binárias de baixo posto e fatores de escala. Especificamente, ele utiliza um método eficiente dos multiplicadores de direção alternada (ADMM) para inicializar com precisão matrizes binárias latentes e fatores de escala, e depois ajusta os parâmetros inicializados através de um processo de reconstrução por blocos e do modelo. Consequentemente, o NanoQuant estabelece uma nova fronteira de Pareto na quantização pós-treinamento de baixa memória, alcançando precisão de última geração mesmo em taxas de compressão sub-1-bit. O NanoQuant torna a implantação em grande escala viável em hardware de consumo. Por exemplo, ele comprime o Llama2-70B em 25,8 vezes em apenas 13 horas em um único H100, permitindo que um modelo de 70B opere em uma GPU de consumo de 8 GB.

English

Weight-only quantization has become a standard approach for efficiently serving large language models (LLMs). However, existing methods fail to efficiently compress models to binary (1-bit) levels, as they either require large amounts of data and compute or incur additional storage. In this work, we propose NanoQuant, the first post-training quantization (PTQ) method to compress LLMs to both binary and sub-1-bit levels. NanoQuant formulates quantization as a low-rank binary factorization problem, and compresses full-precision weights to low-rank binary matrices and scales. Specifically, it utilizes an efficient alternating direction method of multipliers (ADMM) method to precisely initialize latent binary matrices and scales, and then tune the initialized parameters through a block and model reconstruction process. Consequently, NanoQuant establishes a new Pareto frontier in low-memory post-training quantization, achieving state-of-the-art accuracy even at sub-1-bit compression rates. NanoQuant makes large-scale deployment feasible on consumer hardware. For example, it compresses Llama2-70B by 25.8times in just 13 hours on a single H100, enabling a 70B model to operate on a consumer 8 GB GPU.

NanoQuant: Quantização Eficiente Sub-1-Bit de Modelos de Linguagem de Grande Porte

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Resumo

Support