EfficientQAT: Treinamento Eficiente Consciente de Quantização para Modelos de Linguagem Grandes

Resumo

Os modelos de linguagem grandes (LLMs) são essenciais para o processamento de linguagem natural e inteligência artificial modernos. No entanto, eles enfrentam desafios na gestão de seus significativos requisitos de memória. Embora o treinamento consciente de quantização (QAT) ofereça uma solução ao reduzir o consumo de memória por meio de representações de baixo bit com perda mínima de precisão, ele exige recursos de treinamento substanciais para otimizar os pesos do modelo e os parâmetros de quantização. Para lidar com isso, propomos o Treinamento Consciente de Quantização Eficiente (EfficientQAT), uma técnica de quantização inovadora para comprimir LLMs. O EfficientQAT envolve duas fases consecutivas: Treinamento por bloco de todos os parâmetros (Block-AP) e treinamento de parâmetros de quantização de ponta a ponta (E2E-QP). O Block-AP conduz sequencialmente o treinamento consciente de quantização para todos os parâmetros em cada bloco transformador com reconstrução por bloco, mantendo a eficiência ao evitar treinar todo o LLM. Iniciado com o modelo quantizado, o E2E-QP então treina apenas os parâmetros de quantização (tamanhos de passo) de ponta a ponta, aprimorando a eficiência com uma espinha dorsal quantizada fixa e contagem reduzida de parâmetros treináveis. Experimentos extensivos demonstram que o EfficientQAT supera métodos anteriores de quantização em uma variedade de modelos, incluindo LLMs base, LLMs ajustados para instruções e LLMs multimodais, com escalas de 7B a 70B de parâmetros em vários bits de quantização. Por exemplo, o EfficientQAT obtém um modelo Llama-2-70B de 2 bits em uma única GPU A100-80GB em 41 horas, com menos de 3\% de degradação de precisão em comparação com a precisão total (69,48 vs. 72,41). Notavelmente, este modelo quantizado INT2 de 70B obtém um ganho de precisão de 1,67 em relação ao modelo Llama-2-13B (69,48 vs. 67,81) enquanto requer menos memória (19,2GB vs. 24,2GB). O código está disponível em https://github.com/OpenGVLab/EfficientQAT.

English

Large language models (LLMs) are integral to modern natural language processing and artificial intelligence. However, they face challenges in managing their significant memory requirements. Although quantization-aware training (QAT) offers a solution by reducing memory consumption through low-bit representations with minimal accuracy loss, it demands substantial training resources to optimize model weights and quantization parameters. To address this, we propose Efficient Quantization-Aware Training (EfficientQAT), a novel quantization technique for compressing LLMs. EfficientQAT involves two consecutive phases: Block-wise training of all parameters (Block-AP) and end-to-end training of quantization parameters (E2E-QP). Block-AP sequentially conducts quantization-aware training for all parameters in each transformer block with block-wise reconstruction, maintaining efficiency by avoiding training the entire LLM. Initialized with quantized model, E2E-QP then trains only quantization parameters (step sizes) end-to-end, enhancing efficiency with a fixed quantized backbone and reduced trainable parameter count. Extensive experiments demonstrate that EfficientQAT outperforms previous quantization methods across a range of models, including base LLMs, instruction-tuned LLMs, and multimodal LLMs, with scales from 7B to 70B parameters at various quantization bits. For instance, EfficientQAT obtains a 2-bit Llama-2-70B model on a single A100-80GB GPU in 41 hours, with less than 3\% accuracy degradation compared to the full precision (69.48 vs. 72.41). Notably, this INT2 quantized 70B model obtains a 1.67 accuracy gain over the Llama-2-13B model (69.48 vs. 67.81) while requiring less memory (19.2GB vs. 24.2GB). Code is available at https://github.com/OpenGVLab/EfficientQAT.

EfficientQAT: Treinamento Eficiente Consciente de Quantização para Modelos de Linguagem Grandes

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Resumo

Support