EoRA: 圧縮LLMのためのトレーニング不要な補償手法としての固有空間低ランク近似
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation
October 28, 2024
著者: Shih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen
cs.AI
要旨
本研究では、モデル圧縮の問題をカスタマイズされた補償問題に再構築します。圧縮されたモデルが与えられた場合、ユーザーの要件(例:タスク、圧縮率)に合わせて残差の低ランクパスを導入し、特定の圧縮形式に制約されることなく、全体的な容量を調整する柔軟性を実現します。ただし、残差パスを導出するために単純にSVDを適用すると、低ランク表現容量の最適な利用が妨げられます。その代わりに、我々は訓練不要の固有空間低ランク近似(EoRA)という手法を提案します。この手法は、勾配ベースのトレーニングを必要とせずに、圧縮によるエラーを直接最小化し、少量のキャリブレーションデータを使用して数分で高速最適化を実現します。EoRAは、圧縮エラーを入力活性化の固有空間に射影し、固有値を活用して高重要度のエラーコンポーネントの再構築を効果的に優先します。さらに、EoRAは微調整や量子化とシームレスに統合され、効果と効率をさらに向上させることができます。EoRAは、言語生成、常識推論、数学推論などの様々なタスクで、圧縮LLaMA2/3モデルのエラー補償において、従来の手法を常に上回ります(例:ARC-Easy/ARC-Challengeにおいて31.31%/12.88%、MathQAにおいて9.69%の改善が見られ、LLaMA3-8Bの4ビット量子化および2:4スパース化を補償する際)。EoRAは、圧縮エラーの補償に訓練不要のスケーラブルな解決策を提供し、異なる容量と効率の要件に合わせてLLMを展開するための強力なツールとなります。
English
In this work, we re-formulate the model compression problem into the
customized compensation problem: Given a compressed model, we aim to introduce
residual low-rank paths to compensate for compression errors under customized
requirements from users (e.g., tasks, compression ratios), resulting in greater
flexibility in adjusting overall capacity without being constrained by specific
compression formats. However, naively applying SVD to derive residual paths
causes suboptimal utilization of the low-rank representation capacity. Instead,
we propose Training-free Eigenspace Low-Rank Approximation (EoRA), a method
that directly minimizes compression-induced errors without requiring
gradient-based training, achieving fast optimization in minutes using a small
amount of calibration data. EoRA projects compression errors into the
eigenspace of input activations, leveraging eigenvalues to effectively
prioritize the reconstruction of high-importance error components. Moreover,
EoRA can be seamlessly integrated with fine-tuning and quantization to further
improve effectiveness and efficiency. EoRA consistently outperforms previous
methods in compensating errors for compressed LLaMA2/3 models on various tasks,
such as language generation, commonsense reasoning, and math reasoning tasks
(e.g., 31.31%/12.88% and 9.69% improvements on ARC-Easy/ARC-Challenge and
MathQA when compensating LLaMA3-8B that is quantized to 4-bit and pruned to 2:4
sparsity). EoRA offers a scalable, training-free solution to compensate for
compression errors, making it a powerful tool to deploy LLMs in various
capacity and efficiency requirements.Summary
AI-Generated Summary