ChatPaper.aiChatPaper

EoRA: Компенсация без обучения для сжатого LLM с собственным пространством Приближение низкого ранга

EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

October 28, 2024
Авторы: Shih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen
cs.AI

Аннотация

В данной работе мы переформулируем проблему сжатия модели в проблему настройки компенсации: учитывая сжатую модель, мы стремимся ввести остаточные пути низкого ранга для компенсации ошибок сжатия в соответствии с индивидуальными требованиями пользователей (например, задачи, коэффициенты сжатия), что обеспечивает большую гибкость в настройке общей емкости без привязки к конкретным форматам сжатия. Однако наивное применение сингулярного разложения для получения остаточных путей приводит к неоптимальному использованию емкости представления низкого ранга. Вместо этого мы предлагаем метод EoRA (Training-free Eigenspace Low-Rank Approximation), который напрямую минимизирует ошибки, вызванные сжатием, без необходимости градиентного обучения, обеспечивая быструю оптимизацию за несколько минут с использованием небольшого объема калибровочных данных. EoRA проецирует ошибки сжатия в собственное пространство активаций ввода, используя собственные значения для эффективного приоритизации восстановления компонентов ошибок высокой важности. Более того, EoRA может быть легко интегрирован с донастройкой и квантованием для дальнейшего улучшения эффективности и эффективности. EoRA последовательно превосходит предыдущие методы в компенсации ошибок для сжатых моделей LLaMA2/3 на различных задачах, таких как генерация языка, рассуждения здравого смысла и математические задачи (например, улучшения на 31,31%/12,88% и 9,69% на ARC-Easy/ARC-Challenge и MathQA при компенсации LLaMA3-8B, квантованной до 4 бит и обрезанной до разреженности 2:4). EoRA предлагает масштабируемое, обучение-бесплатное решение для компенсации ошибок сжатия, что делает его мощным инструментом для развертывания LLM в различных требованиях к емкости и эффективности.
English
In this work, we re-formulate the model compression problem into the customized compensation problem: Given a compressed model, we aim to introduce residual low-rank paths to compensate for compression errors under customized requirements from users (e.g., tasks, compression ratios), resulting in greater flexibility in adjusting overall capacity without being constrained by specific compression formats. However, naively applying SVD to derive residual paths causes suboptimal utilization of the low-rank representation capacity. Instead, we propose Training-free Eigenspace Low-Rank Approximation (EoRA), a method that directly minimizes compression-induced errors without requiring gradient-based training, achieving fast optimization in minutes using a small amount of calibration data. EoRA projects compression errors into the eigenspace of input activations, leveraging eigenvalues to effectively prioritize the reconstruction of high-importance error components. Moreover, EoRA can be seamlessly integrated with fine-tuning and quantization to further improve effectiveness and efficiency. EoRA consistently outperforms previous methods in compensating errors for compressed LLaMA2/3 models on various tasks, such as language generation, commonsense reasoning, and math reasoning tasks (e.g., 31.31%/12.88% and 9.69% improvements on ARC-Easy/ARC-Challenge and MathQA when compensating LLaMA3-8B that is quantized to 4-bit and pruned to 2:4 sparsity). EoRA offers a scalable, training-free solution to compensate for compression errors, making it a powerful tool to deploy LLMs in various capacity and efficiency requirements.

Summary

AI-Generated Summary

PDF72November 16, 2024