"Дайте мне BF16 или дайте мне смерть"? Компромисс точности и производительности в квантовании LLM."Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM
Quantization
Несмотря на популярность квантования больших языковых моделей (LLM) для ускорения вывода, остается значительная неопределенность относительно компромисса между точностью и производительностью, связанного с различными форматами квантования. Мы представляем обширное эмпирическое исследование квантованной точности, оценивая популярные форматы квантования (FP8, INT8, INT4) на академических бенчмарках и задачах реального мира, на всей семье моделей Llama-3.1. Кроме того, наше исследование исследует разницу в сгенерированном тексте квантованными моделями по сравнению с их неквантованными аналогами. Помимо бенчмарков, мы также представляем несколько улучшений квантования, которые позволили нам достичь результатов восстановления точности на уровне передовых технологий. Наше исследование, охватывающее более 500 000 отдельных оценок, приводит к нескольким ключевым выводам: (1) квантование весов и активаций FP8 (W8A8-FP) не вызывает потерь на всех масштабах моделей, (2) квантование весов и активаций INT8 (W8A8-INT), при правильной настройке, приводит к удивительно низкому снижению точности на уровне 1-3%, и (3) квантование только весов INT4 (W4A16-INT) конкурентоспособно с 8-битным целочисленным квантованием весов и активаций. Для решения вопроса о "лучшем" формате для конкретной среды развертывания мы проводим анализ производительности вывода с использованием популярного открытого фреймворка vLLM на различных архитектурах GPU. Мы обнаруживаем, что W4A16 предлагает лучшую стоимостную эффективность для синхронных развертываний и для асинхронного развертывания на средних GPU. В то же время форматы W8A8 превосходят в асинхронном развертывании "непрерывной пакетной обработки" средних и крупных моделей на высокопроизводительных GPU. Наши результаты предоставляют набор практических рекомендаций для развертывания квантованных LLM на различных масштабах и требованиях к производительности.