ShiftAddLLM: Ускорение предварительно обученных LLM с помощью посттренировочной репараметризации без умножения.

Аннотация

Большие языковые модели (LLM) продемонстрировали впечатляющую производительность на языковых задачах, но сталкиваются с вызовами при развертывании на устройствах с ограниченными ресурсами из-за обширных параметров и зависимости от плотных умножений, что приводит к высоким требованиям к памяти и узким местам в задержке. Репараметризация сдвига и сложения предлагает многообещающее решение, заменяя дорогостоящие умножения аппаратно-приятными примитивами как в слоях внимания, так и в многослойном персептроне (MLP) LLM. Однако текущие техники репараметризации требуют обучения с нуля или полного донастройки параметров для восстановления точности, что затратно для LLM. Для решения этой проблемы мы предлагаем ускорение предварительно обученных LLM через послеобучение репараметризацией сдвига и сложения, создавая эффективные модели без умножений, названные ShiftAddLLM. В частности, мы квантизируем каждую матрицу весов в бинарные матрицы в паре с масштабирующими факторами по группам. Связанные умножения репараметризуются в (1) сдвиги между активациями и масштабирующими факторами и (2) запросы и сложения в соответствии с бинарными матрицами. Для уменьшения потери точности мы представляем метод многокритериальной оптимизации для минимизации ошибок репараметризации как весов, так и активаций вывода. Кроме того, на основе различной чувствительности слоев к репараметризации мы разрабатываем стратегию автоматического выделения битов для дальнейшего снижения использования памяти и задержки. Эксперименты на пяти семействах LLM и восьми задачах последовательно подтверждают эффективность ShiftAddLLM, достигая средних улучшений перплексии на 5,6 и 22,7 пунктов при сравнимой или более низкой задержке по сравнению с наиболее конкурентоспособными квантованными LLM на 3 и 2 бита, соответственно, а также более чем 80% сокращения памяти и энергии по сравнению с исходными LLM. Коды и модели доступны по адресу https://github.com/GATECH-EIC/ShiftAddLLM.

English

Large language models (LLMs) have shown impressive performance on language tasks but face challenges when deployed on resource-constrained devices due to their extensive parameters and reliance on dense multiplications, resulting in high memory demands and latency bottlenecks. Shift-and-add reparameterization offers a promising solution by replacing costly multiplications with hardware-friendly primitives in both the attention and multi-layer perceptron (MLP) layers of an LLM. However, current reparameterization techniques require training from scratch or full parameter fine-tuning to restore accuracy, which is resource-intensive for LLMs. To address this, we propose accelerating pretrained LLMs through post-training shift-and-add reparameterization, creating efficient multiplication-free models, dubbed ShiftAddLLM. Specifically, we quantize each weight matrix into binary matrices paired with group-wise scaling factors. The associated multiplications are reparameterized into (1) shifts between activations and scaling factors and (2) queries and adds according to the binary matrices. To reduce accuracy loss, we present a multi-objective optimization method to minimize both weight and output activation reparameterization errors. Additionally, based on varying sensitivity across layers to reparameterization, we develop an automated bit allocation strategy to further reduce memory usage and latency. Experiments on five LLM families and eight tasks consistently validate the effectiveness of ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points at comparable or lower latency compared to the most competitive quantized LLMs at 3 and 2 bits, respectively, and more than 80% memory and energy reductions over the original LLMs. Codes and models are available at https://github.com/GATECH-EIC/ShiftAddLLM.

ShiftAddLLM: Ускорение предварительно обученных LLM с помощью посттренировочной репараметризации без умножения.

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization

Аннотация

Support