EMLoC: Emulator-gebaseerd geheugenefficiënt fine-tunen met LoRA-correctie
EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction
June 13, 2025
Auteurs: Hsi-Che Lin, Yu-Chu Yu, Kai-Po Chang, Yu-Chiang Frank Wang
cs.AI
Samenvatting
Open-source foundation models hebben een snelle adoptie en ontwikkeling doorgemaakt, waardoor krachtige algemene mogelijkheden in diverse domeinen mogelijk zijn geworden. Het finetunen van grote foundation models voor domeinspecifieke of gepersonaliseerde taken blijft echter voor de meeste gebruikers onbetaalbaar vanwege de aanzienlijke geheugenoverhead die verder gaat dan die van inferentie. Wij introduceren EMLoC, een Emulator-gebaseerd geheugenefficiënt finetuning framework met LoRA-correctie, waarmee modelfinetuning mogelijk is binnen hetzelfde geheugenbudget dat nodig is voor inferentie. EMLoC bouwt een taakspecifieke lichtgewicht emulator met behulp van activatiebewuste singular value decomposition (SVD) op een kleine downstream kalibratieset. Het finetunen wordt vervolgens uitgevoerd op deze lichtgewicht emulator via LoRA. Om de uitlijning tussen het oorspronkelijke model en de gecomprimeerde emulator aan te pakken, stellen we een nieuw compensatiealgoritme voor om de gefinetunde LoRA-module te corrigeren, die vervolgens kan worden samengevoegd met het oorspronkelijke model voor inferentie. EMLoC ondersteunt flexibele compressieverhoudingen en standaard trainingspijplijnen, waardoor het aanpasbaar is voor een breed scala aan toepassingen. Uitgebreide experimenten tonen aan dat EMLoC andere baseline-methoden overtreft op meerdere datasets en modaliteiten. Bovendien maakt EMLoC, zonder kwantisatie, het finetunen van een 38B-model mogelijk op een enkele 24GB consumenten-GPU, waardoor efficiënte en praktische modelaanpassing voor individuele gebruikers binnen handbereik komt.
English
Open-source foundation models have seen rapid adoption and development,
enabling powerful general-purpose capabilities across diverse domains. However,
fine-tuning large foundation models for domain-specific or personalized tasks
remains prohibitively expensive for most users due to the significant memory
overhead beyond that of inference. We introduce EMLoC, an Emulator-based
Memory-efficient fine-tuning framework with LoRA Correction, which enables
model fine-tuning within the same memory budget required for inference. EMLoC
constructs a task-specific light-weight emulator using activation-aware
singular value decomposition (SVD) on a small downstream calibration set.
Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle
the misalignment between the original model and the compressed emulator, we
propose a novel compensation algorithm to correct the fine-tuned LoRA module,
which thus can be merged into the original model for inference. EMLoC supports
flexible compression ratios and standard training pipelines, making it
adaptable to a wide range of applications. Extensive experiments demonstrate
that EMLoC outperforms other baselines across multiple datasets and modalities.
Moreover, without quantization, EMLoC enables fine-tuning of a 38B model on a
single 24GB consumer GPU-bringing efficient and practical model adaptation to
individual users.