EMLoC: Emulator-basiertes speichereffizientes Feinabstimmen mit LoRA-Korrektur
EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction
June 13, 2025
Autoren: Hsi-Che Lin, Yu-Chu Yu, Kai-Po Chang, Yu-Chiang Frank Wang
cs.AI
Zusammenfassung
Open-Source-Foundation-Modelle haben eine rasche Verbreitung und Entwicklung erfahren und ermöglichen leistungsstarke, allgemeine Fähigkeiten in verschiedenen Domänen. Das Feinabstimmen großer Foundation-Modelle für domänenspezifische oder personalisierte Aufgaben bleibt jedoch für die meisten Nutzer aufgrund des erheblichen Speicherbedarfs, der über den für die Inferenz erforderlichen hinausgeht, unerschwinglich teuer. Wir stellen EMLoC vor, ein emulatorbasiertes, speichereffizientes Feinabstimmungsframework mit LoRA-Korrektur, das die Feinabstimmung von Modellen innerhalb des gleichen Speicherbudgets ermöglicht, das für die Inferenz benötigt wird. EMLoC konstruiert einen aufgabenbezogenen, leichtgewichtigen Emulator mithilfe einer aktivierungsbewussten Singulärwertzerlegung (SVD) auf einem kleinen Downstream-Kalibrierungssatz. Die Feinabstimmung wird dann über LoRA auf diesem leichtgewichtigen Emulator durchgeführt. Um die Fehlausrichtung zwischen dem ursprünglichen Modell und dem komprimierten Emulator zu beheben, schlagen wir einen neuartigen Kompensationsalgorithmus vor, um das feinabgestimmte LoRA-Modul zu korrigieren, das somit in das ursprüngliche Modell für die Inferenz integriert werden kann. EMLoC unterstützt flexible Kompressionsraten und standardisierte Trainingspipelines, was es für eine Vielzahl von Anwendungen anpassbar macht. Umfangreiche Experimente zeigen, dass EMLoC andere Baselines über mehrere Datensätze und Modalitäten hinweg übertrifft. Darüber hinaus ermöglicht EMLoC ohne Quantisierung die Feinabstimmung eines 38B-Modells auf einer einzelnen 24GB-Consumer-GPU – und bringt so eine effiziente und praktische Modellanpassung für einzelne Nutzer.
English
Open-source foundation models have seen rapid adoption and development,
enabling powerful general-purpose capabilities across diverse domains. However,
fine-tuning large foundation models for domain-specific or personalized tasks
remains prohibitively expensive for most users due to the significant memory
overhead beyond that of inference. We introduce EMLoC, an Emulator-based
Memory-efficient fine-tuning framework with LoRA Correction, which enables
model fine-tuning within the same memory budget required for inference. EMLoC
constructs a task-specific light-weight emulator using activation-aware
singular value decomposition (SVD) on a small downstream calibration set.
Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle
the misalignment between the original model and the compressed emulator, we
propose a novel compensation algorithm to correct the fine-tuned LoRA module,
which thus can be merged into the original model for inference. EMLoC supports
flexible compression ratios and standard training pipelines, making it
adaptable to a wide range of applications. Extensive experiments demonstrate
that EMLoC outperforms other baselines across multiple datasets and modalities.
Moreover, without quantization, EMLoC enables fine-tuning of a 38B model on a
single 24GB consumer GPU-bringing efficient and practical model adaptation to
individual users.