EoRA: Compensación sin entrenamiento para LLM comprimido con aproximación de rango bajo en el espacio propio.
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation
October 28, 2024
Autores: Shih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen
cs.AI
Resumen
En este trabajo, reformulamos el problema de compresión de modelos en el problema de compensación personalizada: Dado un modelo comprimido, nuestro objetivo es introducir rutas residuales de bajo rango para compensar los errores de compresión bajo requisitos personalizados de los usuarios (por ejemplo, tareas, ratios de compresión), lo que resulta en una mayor flexibilidad para ajustar la capacidad general sin estar limitados por formatos de compresión específicos. Sin embargo, aplicar ingenuamente la Descomposición en Valores Singulares (SVD, por sus siglas en inglés) para derivar rutas residuales causa una utilización subóptima de la capacidad de representación de bajo rango. En su lugar, proponemos la Aproximación de Bajo Rango del Espacio Propio sin Entrenamiento (EoRA, por sus siglas en inglés), un método que minimiza directamente los errores inducidos por la compresión sin necesidad de entrenamiento basado en gradientes, logrando una optimización rápida en minutos utilizando una pequeña cantidad de datos de calibración. EoRA proyecta los errores de compresión en el espacio propio de las activaciones de entrada, aprovechando los autovalores para priorizar de manera efectiva la reconstrucción de componentes de error de alta importancia. Además, EoRA puede integrarse fácilmente con el ajuste fino y la cuantificación para mejorar aún más la efectividad y eficiencia. EoRA supera consistentemente a métodos anteriores en la compensación de errores para modelos LLaMA2/3 comprimidos en diversas tareas, como generación de lenguaje, razonamiento de sentido común y tareas de razonamiento matemático (por ejemplo, mejoras del 31.31%/12.88% y 9.69% en ARC-Easy/ARC-Challenge y MathQA al compensar LLaMA3-8B cuantificado a 4 bits y podado a una dispersión de 2:4). EoRA ofrece una solución escalable y sin entrenamiento para compensar errores de compresión, convirtiéndose en una herramienta poderosa para implementar LLMs en diversos requisitos de capacidad y eficiencia.
English
In this work, we re-formulate the model compression problem into the
customized compensation problem: Given a compressed model, we aim to introduce
residual low-rank paths to compensate for compression errors under customized
requirements from users (e.g., tasks, compression ratios), resulting in greater
flexibility in adjusting overall capacity without being constrained by specific
compression formats. However, naively applying SVD to derive residual paths
causes suboptimal utilization of the low-rank representation capacity. Instead,
we propose Training-free Eigenspace Low-Rank Approximation (EoRA), a method
that directly minimizes compression-induced errors without requiring
gradient-based training, achieving fast optimization in minutes using a small
amount of calibration data. EoRA projects compression errors into the
eigenspace of input activations, leveraging eigenvalues to effectively
prioritize the reconstruction of high-importance error components. Moreover,
EoRA can be seamlessly integrated with fine-tuning and quantization to further
improve effectiveness and efficiency. EoRA consistently outperforms previous
methods in compensating errors for compressed LLaMA2/3 models on various tasks,
such as language generation, commonsense reasoning, and math reasoning tasks
(e.g., 31.31%/12.88% and 9.69% improvements on ARC-Easy/ARC-Challenge and
MathQA when compensating LLaMA3-8B that is quantized to 4-bit and pruned to 2:4
sparsity). EoRA offers a scalable, training-free solution to compensate for
compression errors, making it a powerful tool to deploy LLMs in various
capacity and efficiency requirements.Summary
AI-Generated Summary