EfficientQAT : Entraînement efficace avec prise en compte de la quantification pour les grands modèles de langage
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models
July 10, 2024
Auteurs: Mengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont essentiels au traitement moderne du langage naturel et à l'intelligence artificielle. Cependant, ils rencontrent des difficultés pour gérer leurs importantes exigences en matière de mémoire. Bien que l'entraînement avec prise en compte de la quantification (QAT) offre une solution en réduisant la consommation de mémoire grâce à des représentations en faible précision avec une perte de précision minimale, il nécessite des ressources d'entraînement substantielles pour optimiser les poids du modèle et les paramètres de quantification. Pour résoudre ce problème, nous proposons Efficient Quantization-Aware Training (EfficientQAT), une nouvelle technique de quantification pour compresser les LLMs. EfficientQAT comprend deux phases consécutives : l'entraînement bloc par bloc de tous les paramètres (Block-AP) et l'entraînement de bout en bout des paramètres de quantification (E2E-QP). Block-AP effectue séquentiellement un entraînement avec prise en compte de la quantification pour tous les paramètres de chaque bloc de transformateur avec une reconstruction bloc par bloc, maintenant l'efficacité en évitant d'entraîner l'ensemble du LLM. Initialisé avec un modèle quantifié, E2E-QP entraîne ensuite uniquement les paramètres de quantification (tailles de pas) de bout en bout, améliorant l'efficacité avec un backbone quantifié fixe et un nombre réduit de paramètres entraînables. Des expériences approfondies démontrent qu'EfficientQAT surpasse les méthodes de quantification précédentes sur une gamme de modèles, incluant les LLMs de base, les LLMs ajustés par instruction et les LLMs multimodaux, avec des échelles allant de 7B à 70B paramètres à différents bits de quantification. Par exemple, EfficientQAT obtient un modèle Llama-2-70B en 2 bits sur un seul GPU A100-80GB en 41 heures, avec une dégradation de précision inférieure à 3\% par rapport à la précision complète (69,48 vs. 72,41). Notamment, ce modèle quantifié INT2 de 70B obtient un gain de précision de 1,67 par rapport au modèle Llama-2-13B (69,48 vs. 67,81) tout en nécessitant moins de mémoire (19,2GB vs. 24,2GB). Le code est disponible à l'adresse https://github.com/OpenGVLab/EfficientQAT.
English
Large language models (LLMs) are integral to modern natural language
processing and artificial intelligence. However, they face challenges in
managing their significant memory requirements. Although quantization-aware
training (QAT) offers a solution by reducing memory consumption through low-bit
representations with minimal accuracy loss, it demands substantial training
resources to optimize model weights and quantization parameters. To address
this, we propose Efficient Quantization-Aware Training (EfficientQAT), a novel
quantization technique for compressing LLMs. EfficientQAT involves two
consecutive phases: Block-wise training of all parameters (Block-AP) and
end-to-end training of quantization parameters (E2E-QP). Block-AP sequentially
conducts quantization-aware training for all parameters in each transformer
block with block-wise reconstruction, maintaining efficiency by avoiding
training the entire LLM. Initialized with quantized model, E2E-QP then trains
only quantization parameters (step sizes) end-to-end, enhancing efficiency with
a fixed quantized backbone and reduced trainable parameter count. Extensive
experiments demonstrate that EfficientQAT outperforms previous quantization
methods across a range of models, including base LLMs, instruction-tuned LLMs,
and multimodal LLMs, with scales from 7B to 70B parameters at various
quantization bits. For instance, EfficientQAT obtains a 2-bit Llama-2-70B model
on a single A100-80GB GPU in 41 hours, with less than 3\% accuracy degradation
compared to the full precision (69.48 vs. 72.41). Notably, this INT2 quantized
70B model obtains a 1.67 accuracy gain over the Llama-2-13B model (69.48 vs.
67.81) while requiring less memory (19.2GB vs. 24.2GB). Code is available at
https://github.com/OpenGVLab/EfficientQAT.Summary
AI-Generated Summary