NanoQuant: Quantizzazione Efficiente Sotto il Bit per Grandi Modelli Linguistici

Abstract

La quantizzazione solo dei pesi è diventata un approccio standard per servire efficientemente i grandi modelli linguistici (LLM). Tuttavia, i metodi esistenti non riescono a comprimere efficientemente i modelli a livelli binari (1-bit), poiché richiedono grandi quantità di dati e potenza di calcolo o comportano una memorizzazione aggiuntiva. In questo lavoro, proponiamo NanoQuant, il primo metodo di quantizzazione post-addestramento (PTQ) in grado di comprimere gli LLM sia a livelli binari che sub-1-bit. NanoQuant formula la quantizzazione come un problema di fattorizzazione binaria a basso rango, comprimendo i pesi in precisione piena in matrici e scale binarie a basso rango. Nello specifico, utilizza un metodo efficiente dei moltiplicatori di direzione alternata (ADMM) per inizializzare con precisione le matrici binarie latenti e le scale, per poi ottimizzare i parametri inizializzati attraverso un processo di ricostruzione a blocchi e del modello. Di conseguenza, NanoQuant stabilisce una nuova frontiera di Pareto nella quantizzazione post-addestramento a bassa memoria, raggiungendo un'accuratezza allo stato dell'arte anche a tassi di compressione sub-1-bit. NanoQuant rende fattibile la distribuzione su larga scala su hardware consumer. Ad esempio, comprime Llama2-70B di 25,8 volte in sole 13 ore su un singolo H100, permettendo a un modello da 70B di operare su una GPU consumer da 8 GB.

English

Weight-only quantization has become a standard approach for efficiently serving large language models (LLMs). However, existing methods fail to efficiently compress models to binary (1-bit) levels, as they either require large amounts of data and compute or incur additional storage. In this work, we propose NanoQuant, the first post-training quantization (PTQ) method to compress LLMs to both binary and sub-1-bit levels. NanoQuant formulates quantization as a low-rank binary factorization problem, and compresses full-precision weights to low-rank binary matrices and scales. Specifically, it utilizes an efficient alternating direction method of multipliers (ADMM) method to precisely initialize latent binary matrices and scales, and then tune the initialized parameters through a block and model reconstruction process. Consequently, NanoQuant establishes a new Pareto frontier in low-memory post-training quantization, achieving state-of-the-art accuracy even at sub-1-bit compression rates. NanoQuant makes large-scale deployment feasible on consumer hardware. For example, it compresses Llama2-70B by 25.8times in just 13 hours on a single H100, enabling a 70B model to operate on a consumer 8 GB GPU.

NanoQuant: Quantizzazione Efficiente Sotto il Bit per Grandi Modelli Linguistici

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Abstract

Support