EMLoC: Эмуляторная энергоэффективная тонкая настройка с коррекцией LoRA
EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction
June 13, 2025
Авторы: Hsi-Che Lin, Yu-Chu Yu, Kai-Po Chang, Yu-Chiang Frank Wang
cs.AI
Аннотация
Модели с открытым исходным кодом, основанные на фундаментальных архитектурах, получили быстрое распространение и развитие, обеспечивая мощные универсальные возможности в различных областях. Однако тонкая настройка крупных фундаментальных моделей для задач, специфичных для конкретной области или персонализированных, остается чрезмерно дорогостоящей для большинства пользователей из-за значительных затрат памяти, превышающих требования для вывода. Мы представляем EMLoC — фреймворк для эффективной по памяти тонкой настройки на основе эмулятора с коррекцией LoRA, который позволяет выполнять тонкую настройку модели в рамках того же бюджета памяти, что и для вывода. EMLoC создает легковесный эмулятор, специфичный для задачи, с использованием сингулярного разложения (SVD) с учетом активаций на небольшом калибровочном наборе данных. Затем тонкая настройка выполняется на этом легковесном эмуляторе с помощью LoRA. Для устранения несоответствия между исходной моделью и сжатым эмулятором мы предлагаем новый алгоритм компенсации для коррекции настроенного модуля LoRA, который затем может быть интегрирован в исходную модель для вывода. EMLoC поддерживает гибкие коэффициенты сжатия и стандартные конвейеры обучения, что делает его применимым для широкого спектра задач. Многочисленные эксперименты демонстрируют, что EMLoC превосходит другие базовые подходы на множестве наборов данных и модальностей. Более того, без использования квантования EMLoC позволяет выполнять тонкую настройку модели объемом 38 миллиардов параметров на одной потребительской GPU с 24 ГБ памяти, что делает эффективную и практичную адаптацию моделей доступной для индивидуальных пользователей.
English
Open-source foundation models have seen rapid adoption and development,
enabling powerful general-purpose capabilities across diverse domains. However,
fine-tuning large foundation models for domain-specific or personalized tasks
remains prohibitively expensive for most users due to the significant memory
overhead beyond that of inference. We introduce EMLoC, an Emulator-based
Memory-efficient fine-tuning framework with LoRA Correction, which enables
model fine-tuning within the same memory budget required for inference. EMLoC
constructs a task-specific light-weight emulator using activation-aware
singular value decomposition (SVD) on a small downstream calibration set.
Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle
the misalignment between the original model and the compressed emulator, we
propose a novel compensation algorithm to correct the fine-tuned LoRA module,
which thus can be merged into the original model for inference. EMLoC supports
flexible compression ratios and standard training pipelines, making it
adaptable to a wide range of applications. Extensive experiments demonstrate
that EMLoC outperforms other baselines across multiple datasets and modalities.
Moreover, without quantization, EMLoC enables fine-tuning of a 38B model on a
single 24GB consumer GPU-bringing efficient and practical model adaptation to
individual users.