ChatPaper.aiChatPaper

EMLoC: Ajuste fino eficiente en memoria basado en emulador con corrección LoRA

EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

June 13, 2025
Autores: Hsi-Che Lin, Yu-Chu Yu, Kai-Po Chang, Yu-Chiang Frank Wang
cs.AI

Resumen

Los modelos de base de código abierto han experimentado una rápida adopción y desarrollo, permitiendo capacidades generales potentes en diversos dominios. Sin embargo, el ajuste fino de grandes modelos de base para tareas específicas de dominio o personalizadas sigue siendo prohibitivamente costoso para la mayoría de los usuarios debido al significativo sobrecargo de memoria más allá del requerido para la inferencia. Presentamos EMLoC, un marco de ajuste fino eficiente en memoria basado en emuladores con Corrección LoRA, que permite el ajuste fino del modelo dentro del mismo presupuesto de memoria requerido para la inferencia. EMLoC construye un emulador ligero específico para la tarea utilizando descomposición en valores singulares (SVD) consciente de la activación en un pequeño conjunto de calibración descendente. El ajuste fino se realiza entonces en este emulador ligero mediante LoRA. Para abordar la desalineación entre el modelo original y el emulador comprimido, proponemos un novedoso algoritmo de compensación para corregir el módulo LoRA ajustado, que así puede fusionarse con el modelo original para la inferencia. EMLoC admite ratios de compresión flexibles y flujos de entrenamiento estándar, lo que lo hace adaptable a una amplia gama de aplicaciones. Experimentos extensivos demuestran que EMLoC supera a otras líneas de base en múltiples conjuntos de datos y modalidades. Además, sin cuantización, EMLoC permite el ajuste fino de un modelo de 38B en una sola GPU de consumo de 24GB, llevando la adaptación eficiente y práctica del modelo a usuarios individuales.
English
Open-source foundation models have seen rapid adoption and development, enabling powerful general-purpose capabilities across diverse domains. However, fine-tuning large foundation models for domain-specific or personalized tasks remains prohibitively expensive for most users due to the significant memory overhead beyond that of inference. We introduce EMLoC, an Emulator-based Memory-efficient fine-tuning framework with LoRA Correction, which enables model fine-tuning within the same memory budget required for inference. EMLoC constructs a task-specific light-weight emulator using activation-aware singular value decomposition (SVD) on a small downstream calibration set. Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle the misalignment between the original model and the compressed emulator, we propose a novel compensation algorithm to correct the fine-tuned LoRA module, which thus can be merged into the original model for inference. EMLoC supports flexible compression ratios and standard training pipelines, making it adaptable to a wide range of applications. Extensive experiments demonstrate that EMLoC outperforms other baselines across multiple datasets and modalities. Moreover, without quantization, EMLoC enables fine-tuning of a 38B model on a single 24GB consumer GPU-bringing efficient and practical model adaptation to individual users.
PDF22June 18, 2025