EMLoC: Ajuste Fino Eficiente em Memória Baseado em Emulador com Correção LoRA
EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction
June 13, 2025
Autores: Hsi-Che Lin, Yu-Chu Yu, Kai-Po Chang, Yu-Chiang Frank Wang
cs.AI
Resumo
Modelos de base de código aberto têm experimentado uma rápida adoção e desenvolvimento, permitindo capacidades gerais poderosas em diversos domínios. No entanto, o ajuste fino de grandes modelos de base para tarefas específicas de domínio ou personalizadas continua proibitivamente caro para a maioria dos usuários devido à sobrecarga significativa de memória além daquela necessária para inferência. Apresentamos o EMLoC, um framework de ajuste fino eficiente em memória baseado em emulador com Correção LoRA, que permite o ajuste fino do modelo dentro do mesmo orçamento de memória necessário para inferência. O EMLoC constrói um emulador leve específico para a tarefa usando decomposição em valores singulares (SVD) ativada por ativação em um pequeno conjunto de calibração downstream. O ajuste fino é então realizado neste emulador leve via LoRA. Para abordar o desalinhamento entre o modelo original e o emulador comprimido, propomos um novo algoritmo de compensação para corrigir o módulo LoRA ajustado, que pode então ser mesclado ao modelo original para inferência. O EMLoC suporta taxas de compressão flexíveis e pipelines de treinamento padrão, tornando-o adaptável a uma ampla gama de aplicações. Experimentos extensivos demonstram que o EMLoC supera outras baselines em múltiplos conjuntos de dados e modalidades. Além disso, sem quantização, o EMLoC permite o ajuste fino de um modelo de 38B em uma única GPU de consumo de 24GB, trazendo adaptação de modelo eficiente e prática para usuários individuais.
English
Open-source foundation models have seen rapid adoption and development,
enabling powerful general-purpose capabilities across diverse domains. However,
fine-tuning large foundation models for domain-specific or personalized tasks
remains prohibitively expensive for most users due to the significant memory
overhead beyond that of inference. We introduce EMLoC, an Emulator-based
Memory-efficient fine-tuning framework with LoRA Correction, which enables
model fine-tuning within the same memory budget required for inference. EMLoC
constructs a task-specific light-weight emulator using activation-aware
singular value decomposition (SVD) on a small downstream calibration set.
Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle
the misalignment between the original model and the compressed emulator, we
propose a novel compensation algorithm to correct the fine-tuned LoRA module,
which thus can be merged into the original model for inference. EMLoC supports
flexible compression ratios and standard training pipelines, making it
adaptable to a wide range of applications. Extensive experiments demonstrate
that EMLoC outperforms other baselines across multiple datasets and modalities.
Moreover, without quantization, EMLoC enables fine-tuning of a 38B model on a
single 24GB consumer GPU-bringing efficient and practical model adaptation to
individual users.