ChatPaper.aiChatPaper

EoRA: Compensação sem treinamento para LLM comprimido com aproximação de baixa patente do espaço próprio.

EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

October 28, 2024
Autores: Shih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen
cs.AI

Resumo

Neste trabalho, reformulamos o problema de compressão de modelos no problema de compensação personalizada: Dado um modelo comprimido, nosso objetivo é introduzir caminhos residuais de baixa classificação para compensar erros de compressão sob requisitos personalizados dos usuários (por exemplo, tarefas, taxas de compressão), resultando em maior flexibilidade para ajustar a capacidade geral sem ser limitado por formatos de compressão específicos. No entanto, aplicar ingenuamente a SVD para derivar caminhos residuais causa utilização subótima da capacidade de representação de baixa classificação. Em vez disso, propomos a Aproximação de Baixa Classificação do Espaço Próprio sem Treinamento (EoRA), um método que minimiza diretamente os erros induzidos pela compressão sem exigir treinamento baseado em gradiente, alcançando uma otimização rápida em minutos usando uma pequena quantidade de dados de calibração. EoRA projeta os erros de compressão no espaço próprio das ativações de entrada, alavancando os autovalores para priorizar efetivamente a reconstrução dos componentes de erro de alta importância. Além disso, EoRA pode ser integrado de forma transparente com ajuste fino e quantização para melhorar ainda mais a eficácia e eficiência. EoRA supera consistentemente métodos anteriores na compensação de erros para modelos LLaMA2/3 comprimidos em várias tarefas, como geração de linguagem, raciocínio de senso comum e tarefas de raciocínio matemático (por exemplo, melhorias de 31,31%/12,88% e 9,69% em ARC-Easy/ARC-Challenge e MathQA ao compensar LLaMA3-8B quantizado para 4 bits e podado para esparsidade de 2:4). EoRA oferece uma solução escalável e sem treinamento para compensar erros de compressão, tornando-se uma ferramenta poderosa para implantar LLMs em várias exigências de capacidade e eficiência.
English
In this work, we re-formulate the model compression problem into the customized compensation problem: Given a compressed model, we aim to introduce residual low-rank paths to compensate for compression errors under customized requirements from users (e.g., tasks, compression ratios), resulting in greater flexibility in adjusting overall capacity without being constrained by specific compression formats. However, naively applying SVD to derive residual paths causes suboptimal utilization of the low-rank representation capacity. Instead, we propose Training-free Eigenspace Low-Rank Approximation (EoRA), a method that directly minimizes compression-induced errors without requiring gradient-based training, achieving fast optimization in minutes using a small amount of calibration data. EoRA projects compression errors into the eigenspace of input activations, leveraging eigenvalues to effectively prioritize the reconstruction of high-importance error components. Moreover, EoRA can be seamlessly integrated with fine-tuning and quantization to further improve effectiveness and efficiency. EoRA consistently outperforms previous methods in compensating errors for compressed LLaMA2/3 models on various tasks, such as language generation, commonsense reasoning, and math reasoning tasks (e.g., 31.31%/12.88% and 9.69% improvements on ARC-Easy/ARC-Challenge and MathQA when compensating LLaMA3-8B that is quantized to 4-bit and pruned to 2:4 sparsity). EoRA offers a scalable, training-free solution to compensate for compression errors, making it a powerful tool to deploy LLMs in various capacity and efficiency requirements.

Summary

AI-Generated Summary

PDF72November 16, 2024