Оптимизация округления весов с помощью знакового градиентного спуска для квантования крупных языковых моделей
Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs
September 11, 2023
Авторы: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали исключительные способности в выполнении задач, связанных с обработкой языка. Однако их развертывание сопряжено с существенными трудностями из-за значительных требований к памяти и хранилищу. В ответ на эту проблему квантование только весов, особенно 3- и 4-битное квантование только весов, стало одним из наиболее жизнеспособных решений. По мере уменьшения количества бит сетка квантования расширяется, что подчеркивает важность округления вверх и вниз. Хотя предыдущие исследования показали, что тонкая настройка округления вверх и вниз с добавлением возмущений может повысить точность в некоторых сценариях, наше исследование мотивировано точной и ограниченной границей этих возмущений, где значим только порог изменения значения округления. В результате мы предлагаем краткий и высокоэффективный подход для оптимизации задачи округления весов. Наш метод, названный SignRound, включает легкую блочную настройку с использованием знакового градиентного спуска, что позволяет нам достичь выдающихся результатов за 400 шагов. SignRound превосходит установленный базовый метод округления до ближайшего (RTN) и успешно конкурирует с недавними методами, не вводя дополнительных накладных расходов на этапе вывода. Исходный код будет вскоре доступен по адресу https://github.com/intel/neural-compressor.
English
Large Language Models (LLMs) have proven their exceptional capabilities in
performing language-related tasks. However, their deployment poses significant
challenges due to their considerable memory and storage requirements. In
response to this issue, weight-only quantization, particularly 3 and 4-bit
weight-only quantization, has emerged as one of the most viable solutions. As
the number of bits decreases, the quantization grid broadens, thus emphasizing
the importance of up and down rounding. While previous studies have
demonstrated that fine-tuning up and down rounding with the addition of
perturbations can enhance accuracy in some scenarios, our study is driven by
the precise and limited boundary of these perturbations, where only the
threshold for altering the rounding value is of significance. Consequently, we
propose a concise and highly effective approach for optimizing the weight
rounding task. Our method, named SignRound, involves lightweight block-wise
tuning using signed gradient descent, enabling us to achieve outstanding
results within 400 steps. SignRound outperforms the established baseline of
rounding-to-nearest (RTN) and competes impressively against recent methods,
without introducing additional inference overhead. The source code will be
publicly available at https://github.com/intel/neural-compressor soon.