EfficientQAT: Эффективное обучение с учетом квантования для больших языковых моделей

Аннотация

Большие языковые модели (LLM) являются неотъемлемой частью современной обработки естественного языка и искусственного интеллекта. Тем не менее, они сталкиваются с проблемами управления значительными требованиями к памяти. Хотя обучение с учетом квантования (QAT) предлагает решение путем снижения потребления памяти за счет низкобитовых представлений с минимальной потерей точности, это требует значительных ресурсов для оптимизации весов модели и параметров квантования. Для решения этой проблемы мы предлагаем эффективное обучение с учетом квантования (EfficientQAT), новую технику квантования для сжатия LLM. EfficientQAT включает две последовательные фазы: блочное обучение всех параметров (Block-AP) и обучение параметров квантования от начала до конца (E2E-QP). Block-AP последовательно проводит обучение с учетом квантования для всех параметров в каждом блоке трансформера с блочной реконструкцией, обеспечивая эффективность путем избегания обучения всей LLM. Инициализированный квантованной моделью, E2E-QP затем обучает только параметры квантования (шаги) от начала до конца, улучшая эффективность с фиксированным квантованным основанием и сокращенным количеством обучаемых параметров. Обширные эксперименты показывают, что EfficientQAT превосходит предыдущие методы квантования на ряде моделей, включая базовые LLM, LLM, настроенные на инструкции, и мультимодальные LLM, с масштабами от 7B до 70B параметров при различных битах квантования. Например, EfficientQAT получает модель Llama-2-70B с 2 битами на одном графическом процессоре A100-80GB за 41 час, с менее чем 3\% деградацией точности по сравнению с полной точностью (69.48 против 72.41). Следует отметить, что эта квантованная модель 70B INT2 дает прирост точности на 1.67 по сравнению с моделью Llama-2-13B (69.48 против 67.81), требуя при этом меньше памяти (19.2GB против 24.2GB). Код доступен по адресу https://github.com/OpenGVLab/EfficientQAT.

English

Large language models (LLMs) are integral to modern natural language processing and artificial intelligence. However, they face challenges in managing their significant memory requirements. Although quantization-aware training (QAT) offers a solution by reducing memory consumption through low-bit representations with minimal accuracy loss, it demands substantial training resources to optimize model weights and quantization parameters. To address this, we propose Efficient Quantization-Aware Training (EfficientQAT), a novel quantization technique for compressing LLMs. EfficientQAT involves two consecutive phases: Block-wise training of all parameters (Block-AP) and end-to-end training of quantization parameters (E2E-QP). Block-AP sequentially conducts quantization-aware training for all parameters in each transformer block with block-wise reconstruction, maintaining efficiency by avoiding training the entire LLM. Initialized with quantized model, E2E-QP then trains only quantization parameters (step sizes) end-to-end, enhancing efficiency with a fixed quantized backbone and reduced trainable parameter count. Extensive experiments demonstrate that EfficientQAT outperforms previous quantization methods across a range of models, including base LLMs, instruction-tuned LLMs, and multimodal LLMs, with scales from 7B to 70B parameters at various quantization bits. For instance, EfficientQAT obtains a 2-bit Llama-2-70B model on a single A100-80GB GPU in 41 hours, with less than 3\% accuracy degradation compared to the full precision (69.48 vs. 72.41). Notably, this INT2 quantized 70B model obtains a 1.67 accuracy gain over the Llama-2-13B model (69.48 vs. 67.81) while requiring less memory (19.2GB vs. 24.2GB). Code is available at https://github.com/OpenGVLab/EfficientQAT.

EfficientQAT: Эффективное обучение с учетом квантования для больших языковых моделей

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Аннотация

Support