ChatPaper.aiChatPaper

EfficientQAT : Entraînement efficace avec prise en compte de la quantification pour les grands modèles de langage

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

July 10, 2024
Auteurs: Mengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI

Résumé

Les grands modèles de langage (LLMs) sont essentiels au traitement moderne du langage naturel et à l'intelligence artificielle. Cependant, ils rencontrent des difficultés pour gérer leurs importantes exigences en matière de mémoire. Bien que l'entraînement avec prise en compte de la quantification (QAT) offre une solution en réduisant la consommation de mémoire grâce à des représentations en faible précision avec une perte de précision minimale, il nécessite des ressources d'entraînement substantielles pour optimiser les poids du modèle et les paramètres de quantification. Pour résoudre ce problème, nous proposons Efficient Quantization-Aware Training (EfficientQAT), une nouvelle technique de quantification pour compresser les LLMs. EfficientQAT comprend deux phases consécutives : l'entraînement bloc par bloc de tous les paramètres (Block-AP) et l'entraînement de bout en bout des paramètres de quantification (E2E-QP). Block-AP effectue séquentiellement un entraînement avec prise en compte de la quantification pour tous les paramètres de chaque bloc de transformateur avec une reconstruction bloc par bloc, maintenant l'efficacité en évitant d'entraîner l'ensemble du LLM. Initialisé avec un modèle quantifié, E2E-QP entraîne ensuite uniquement les paramètres de quantification (tailles de pas) de bout en bout, améliorant l'efficacité avec un backbone quantifié fixe et un nombre réduit de paramètres entraînables. Des expériences approfondies démontrent qu'EfficientQAT surpasse les méthodes de quantification précédentes sur une gamme de modèles, incluant les LLMs de base, les LLMs ajustés par instruction et les LLMs multimodaux, avec des échelles allant de 7B à 70B paramètres à différents bits de quantification. Par exemple, EfficientQAT obtient un modèle Llama-2-70B en 2 bits sur un seul GPU A100-80GB en 41 heures, avec une dégradation de précision inférieure à 3\% par rapport à la précision complète (69,48 vs. 72,41). Notamment, ce modèle quantifié INT2 de 70B obtient un gain de précision de 1,67 par rapport au modèle Llama-2-13B (69,48 vs. 67,81) tout en nécessitant moins de mémoire (19,2GB vs. 24,2GB). Le code est disponible à l'adresse https://github.com/OpenGVLab/EfficientQAT.
English
Large language models (LLMs) are integral to modern natural language processing and artificial intelligence. However, they face challenges in managing their significant memory requirements. Although quantization-aware training (QAT) offers a solution by reducing memory consumption through low-bit representations with minimal accuracy loss, it demands substantial training resources to optimize model weights and quantization parameters. To address this, we propose Efficient Quantization-Aware Training (EfficientQAT), a novel quantization technique for compressing LLMs. EfficientQAT involves two consecutive phases: Block-wise training of all parameters (Block-AP) and end-to-end training of quantization parameters (E2E-QP). Block-AP sequentially conducts quantization-aware training for all parameters in each transformer block with block-wise reconstruction, maintaining efficiency by avoiding training the entire LLM. Initialized with quantized model, E2E-QP then trains only quantization parameters (step sizes) end-to-end, enhancing efficiency with a fixed quantized backbone and reduced trainable parameter count. Extensive experiments demonstrate that EfficientQAT outperforms previous quantization methods across a range of models, including base LLMs, instruction-tuned LLMs, and multimodal LLMs, with scales from 7B to 70B parameters at various quantization bits. For instance, EfficientQAT obtains a 2-bit Llama-2-70B model on a single A100-80GB GPU in 41 hours, with less than 3\% accuracy degradation compared to the full precision (69.48 vs. 72.41). Notably, this INT2 quantized 70B model obtains a 1.67 accuracy gain over the Llama-2-13B model (69.48 vs. 67.81) while requiring less memory (19.2GB vs. 24.2GB). Code is available at https://github.com/OpenGVLab/EfficientQAT.

Summary

AI-Generated Summary

PDF93November 28, 2024