ChatPaper.aiChatPaper

ShiftAddLLM: Aceleración de LLMs preentrenados mediante reparametrización posentrenamiento sin multiplicaciones

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization

June 10, 2024
Autores: Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Lin
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de lenguaje, pero enfrentan desafíos cuando se despliegan en dispositivos con recursos limitados debido a su gran cantidad de parámetros y su dependencia de multiplicaciones densas, lo que resulta en altas demandas de memoria y cuellos de botella en la latencia. La reparametrización de desplazamiento y suma ofrece una solución prometedora al reemplazar las costosas multiplicaciones con primitivas amigables para el hardware tanto en las capas de atención como en las capas de perceptrón multicapa (MLP) de un LLM. Sin embargo, las técnicas actuales de reparametrización requieren entrenamiento desde cero o ajuste fino de todos los parámetros para restaurar la precisión, lo que es intensivo en recursos para los LLMs. Para abordar esto, proponemos acelerar LLMs preentrenados mediante reparametrización de desplazamiento y suma post-entrenamiento, creando modelos eficientes libres de multiplicaciones, denominados ShiftAddLLM. Específicamente, cuantificamos cada matriz de pesos en matrices binarias emparejadas con factores de escalado por grupos. Las multiplicaciones asociadas se reparametrizan en (1) desplazamientos entre activaciones y factores de escalado y (2) consultas y sumas según las matrices binarias. Para reducir la pérdida de precisión, presentamos un método de optimización multiobjetivo para minimizar tanto los errores de reparametrización de los pesos como los de las activaciones de salida. Además, basándonos en la sensibilidad variable de las capas a la reparametrización, desarrollamos una estrategia automatizada de asignación de bits para reducir aún más el uso de memoria y la latencia. Los experimentos en cinco familias de LLMs y ocho tareas validan consistentemente la efectividad de ShiftAddLLM, logrando mejoras promedio en la perplejidad de 5.6 y 22.7 puntos con una latencia comparable o menor en comparación con los LLMs cuantizados más competitivos a 3 y 2 bits, respectivamente, y reducciones de más del 80% en memoria y energía sobre los LLMs originales. Los códigos y modelos están disponibles en https://github.com/GATECH-EIC/ShiftAddLLM.
English
Large language models (LLMs) have shown impressive performance on language tasks but face challenges when deployed on resource-constrained devices due to their extensive parameters and reliance on dense multiplications, resulting in high memory demands and latency bottlenecks. Shift-and-add reparameterization offers a promising solution by replacing costly multiplications with hardware-friendly primitives in both the attention and multi-layer perceptron (MLP) layers of an LLM. However, current reparameterization techniques require training from scratch or full parameter fine-tuning to restore accuracy, which is resource-intensive for LLMs. To address this, we propose accelerating pretrained LLMs through post-training shift-and-add reparameterization, creating efficient multiplication-free models, dubbed ShiftAddLLM. Specifically, we quantize each weight matrix into binary matrices paired with group-wise scaling factors. The associated multiplications are reparameterized into (1) shifts between activations and scaling factors and (2) queries and adds according to the binary matrices. To reduce accuracy loss, we present a multi-objective optimization method to minimize both weight and output activation reparameterization errors. Additionally, based on varying sensitivity across layers to reparameterization, we develop an automated bit allocation strategy to further reduce memory usage and latency. Experiments on five LLM families and eight tasks consistently validate the effectiveness of ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points at comparable or lower latency compared to the most competitive quantized LLMs at 3 and 2 bits, respectively, and more than 80% memory and energy reductions over the original LLMs. Codes and models are available at https://github.com/GATECH-EIC/ShiftAddLLM.

Summary

AI-Generated Summary

PDF160December 8, 2024