EMLoC: Fine-tuning Efficiente in Memoria basato su Emulatore con Correzione LoRA
EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction
June 13, 2025
Autori: Hsi-Che Lin, Yu-Chu Yu, Kai-Po Chang, Yu-Chiang Frank Wang
cs.AI
Abstract
I modelli foundation open-source hanno visto una rapida adozione e sviluppo, abilitando potenti capacità generali in diversi domini. Tuttavia, il fine-tuning di grandi modelli foundation per task specifici di dominio o personalizzati rimane proibitivamente costoso per la maggior parte degli utenti a causa del significativo sovraccarico di memoria oltre quello richiesto per l'inferenza. Introduciamo EMLoC, un framework di fine-tuning efficiente in termini di memoria basato su emulatore con correzione LoRA, che consente il fine-tuning del modello all'interno dello stesso budget di memoria richiesto per l'inferenza. EMLoC costruisce un emulatore leggero specifico per il task utilizzando la decomposizione a valori singolari (SVD) attivazione-consapevole su un piccolo set di calibrazione downstream. Il fine-tuning viene quindi eseguito su questo emulatore leggero tramite LoRA. Per affrontare il disallineamento tra il modello originale e l'emulatore compresso, proponiamo un nuovo algoritmo di compensazione per correggere il modulo LoRA fine-tuned, che può quindi essere integrato nel modello originale per l'inferenza. EMLoC supporta rapporti di compressione flessibili e pipeline di addestramento standard, rendendolo adattabile a un'ampia gamma di applicazioni. Esperimenti estensivi dimostrano che EMLoC supera altri baseline su più dataset e modalità. Inoltre, senza quantizzazione, EMLoC consente il fine-tuning di un modello da 38B su una singola GPU consumer da 24GB, portando un'adattamento efficiente e pratico del modello agli utenti individuali.
English
Open-source foundation models have seen rapid adoption and development,
enabling powerful general-purpose capabilities across diverse domains. However,
fine-tuning large foundation models for domain-specific or personalized tasks
remains prohibitively expensive for most users due to the significant memory
overhead beyond that of inference. We introduce EMLoC, an Emulator-based
Memory-efficient fine-tuning framework with LoRA Correction, which enables
model fine-tuning within the same memory budget required for inference. EMLoC
constructs a task-specific light-weight emulator using activation-aware
singular value decomposition (SVD) on a small downstream calibration set.
Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle
the misalignment between the original model and the compressed emulator, we
propose a novel compensation algorithm to correct the fine-tuned LoRA module,
which thus can be merged into the original model for inference. EMLoC supports
flexible compression ratios and standard training pipelines, making it
adaptable to a wide range of applications. Extensive experiments demonstrate
that EMLoC outperforms other baselines across multiple datasets and modalities.
Moreover, without quantization, EMLoC enables fine-tuning of a 38B model on a
single 24GB consumer GPU-bringing efficient and practical model adaptation to
individual users.