Développement efficace de modèles par fine-tuning de transfert
Efficient Model Development through Fine-tuning Transfer
March 25, 2025
Auteurs: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
cs.AI
Résumé
Les grands modèles de langage (LLM) modernes rencontrent des difficultés pour effectuer des mises à jour efficaces, car chaque nouvelle version de modèle pré-entraîné nécessite de répéter des processus d'alignement coûteux. Ce défi s'applique également aux modèles spécifiques à un domaine ou à une langue, où le fine-tuning sur des données spécialisées doit être refait pour chaque nouvelle version du modèle de base. Dans cet article, nous explorons le transfert des mises à jour de fine-tuning entre différentes versions de modèles. Plus précisément, nous dérivons le vecteur de différence d'une version source du modèle, qui représente les changements de poids issus du fine-tuning, et l'appliquons au modèle de base d'une version cible différente. Grâce à des évaluations empiriques sur diverses versions de modèles open-weight, nous montrons que le transfert des vecteurs de différence peut considérablement améliorer le modèle de base cible, atteignant souvent des performances comparables à celles de sa version fine-tunée. Par exemple, la réutilisation des mises à jour de fine-tuning de Llama 3.0 8B entraîne une amélioration absolue de la précision de 10,7 % sur GPQA par rapport au modèle de base Llama 3.1 8B sans entraînement supplémentaire, surpassant Llama 3.1 8B Instruct. Dans un contexte de développement de modèles multilingues, nous montrons que cette approche peut augmenter significativement les performances sur des tâches dans la langue cible sans réentraînement, avec des améliorations absolues de 4,7 % et 15,5 % sur Global MMLU pour le malgache et le turc, respectivement, par rapport à Llama 3.1 8B Instruct. Nos expériences contrôlées révèlent que le transfert de fine-tuning est plus efficace lorsque les modèles source et cible sont linéairement connectés dans l'espace des paramètres. De plus, nous démontrons que le transfert de fine-tuning offre un point de départ plus robuste et plus efficace sur le plan informatique pour un fine-tuning ultérieur. Enfin, nous proposons une approche itérative de recyclage puis de fine-tuning pour un développement continu de modèles, qui améliore à la fois l'efficacité et l'efficience. Nos résultats suggèrent que le transfert de fine-tuning est une stratégie viable pour réduire les coûts d'entraînement tout en maintenant les performances du modèle.
English
Modern LLMs struggle with efficient updates, as each new pretrained model
version requires repeating expensive alignment processes. This challenge also
applies to domain- or language-specific models, where fine-tuning on
specialized data must be redone for every new base model release. In this
paper, we explore the transfer of fine-tuning updates between model versions.
Specifically, we derive the diff vector from one source model version, which
represents the weight changes from fine-tuning, and apply it to the base model
of a different target version. Through empirical evaluations on various
open-weight model versions, we show that transferring diff vectors can
significantly improve the target base model, often achieving performance
comparable to its fine-tuned counterpart. For example, reusing the fine-tuning
updates from Llama 3.0 8B leads to an absolute accuracy improvement of 10.7% on
GPQA over the base Llama 3.1 8B without additional training, surpassing Llama
3.1 8B Instruct. In a multilingual model development setting, we show that this
approach can significantly increase performance on target-language tasks
without retraining, achieving an absolute improvement of 4.7% and 15.5% on
Global MMLU for Malagasy and Turkish, respectively, compared to Llama 3.1 8B
Instruct. Our controlled experiments reveal that fine-tuning transfer is most
effective when the source and target models are linearly connected in the
parameter space. Additionally, we demonstrate that fine-tuning transfer offers
a stronger and more computationally efficient starting point for further
fine-tuning. Finally, we propose an iterative recycling-then-finetuning
approach for continuous model development, which improves both efficiency and
effectiveness. Our findings suggest that fine-tuning transfer is a viable
strategy to reduce training costs while maintaining model performance.