EMLoC : Réglage fin économe en mémoire basé sur un émulateur avec correction LoRA

papers.abstract

Les modèles de base open source ont connu une adoption et un développement rapides, permettant des capacités polyvalentes puissantes dans divers domaines. Cependant, l'affinage de grands modèles de base pour des tâches spécifiques à un domaine ou personnalisées reste prohibitif pour la plupart des utilisateurs en raison de la surcharge mémoire importante au-delà de celle requise pour l'inférence. Nous présentons EMLoC, un cadre d'affinage efficace en mémoire basé sur un émulateur avec correction LoRA, qui permet l'affinage du modèle dans le même budget mémoire requis pour l'inférence. EMLoC construit un émulateur léger spécifique à la tâche en utilisant une décomposition en valeurs singulières (SVD) sensible aux activations sur un petit ensemble de calibration en aval. L'affinage est ensuite effectué sur cet émulateur léger via LoRA. Pour résoudre le désalignement entre le modèle original et l'émulateur compressé, nous proposons un algorithme de compensation innovant pour corriger le module LoRA affiné, qui peut ainsi être fusionné dans le modèle original pour l'inférence. EMLoC prend en charge des ratios de compression flexibles et des pipelines d'entraînement standard, le rendant adaptable à une large gamme d'applications. Des expériences approfondies démontrent qu'EMLoC surpasse d'autres méthodes de référence sur plusieurs ensembles de données et modalités. De plus, sans quantification, EMLoC permet l'affinage d'un modèle de 38 milliards de paramètres sur une seule carte graphique grand public de 24 Go, offrant ainsi une adaptation de modèle efficace et pratique aux utilisateurs individuels.

English

Open-source foundation models have seen rapid adoption and development, enabling powerful general-purpose capabilities across diverse domains. However, fine-tuning large foundation models for domain-specific or personalized tasks remains prohibitively expensive for most users due to the significant memory overhead beyond that of inference. We introduce EMLoC, an Emulator-based Memory-efficient fine-tuning framework with LoRA Correction, which enables model fine-tuning within the same memory budget required for inference. EMLoC constructs a task-specific light-weight emulator using activation-aware singular value decomposition (SVD) on a small downstream calibration set. Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle the misalignment between the original model and the compressed emulator, we propose a novel compensation algorithm to correct the fine-tuned LoRA module, which thus can be merged into the original model for inference. EMLoC supports flexible compression ratios and standard training pipelines, making it adaptable to a wide range of applications. Extensive experiments demonstrate that EMLoC outperforms other baselines across multiple datasets and modalities. Moreover, without quantization, EMLoC enables fine-tuning of a 38B model on a single 24GB consumer GPU-bringing efficient and practical model adaptation to individual users.

EMLoC : Réglage fin économe en mémoire basé sur un émulateur avec correction LoRA

EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

papers.abstract

Support