Efficiënte Modelontwikkeling via Fine-tuning Transfer
Efficient Model Development through Fine-tuning Transfer
March 25, 2025
Auteurs: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
cs.AI
Samenvatting
Moderne LLM's hebben moeite met efficiënte updates, aangezien elke nieuwe versie van een voorgetraind model het herhalen van kostbare afstemmingsprocessen vereist. Deze uitdaging geldt ook voor domein- of taalgespecificeerde modellen, waarbij fine-tuning op gespecialiseerde data opnieuw moet worden uitgevoerd voor elke nieuwe release van een basismodel. In dit artikel onderzoeken we de overdracht van fine-tuning-updates tussen modelversies. Specifiek leiden we de diff-vector af van één bronmodelversie, die de gewichtsveranderingen van fine-tuning vertegenwoordigt, en passen deze toe op het basismodel van een andere doelversie. Door empirische evaluaties op verschillende open-weight modelversies tonen we aan dat het overdragen van diff-vectors het doelbasismodel aanzienlijk kan verbeteren, vaak met prestaties die vergelijkbaar zijn met de fine-tuned tegenhanger. Zo leidt het hergebruik van de fine-tuning-updates van Llama 3.0 8B tot een absolute nauwkeurigheidsverbetering van 10,7% op GPQA ten opzichte van het basis Llama 3.1 8B zonder aanvullende training, wat Llama 3.1 8B Instruct overtreft. In een meertalige modelontwikkelingsomgeving laten we zien dat deze aanpak de prestaties op taalspecifieke taken aanzienlijk kan verbeteren zonder hertraining, met een absolute verbetering van 4,7% en 15,5% op Global MMLU voor respectievelijk Malagasy en Turks, vergeleken met Llama 3.1 8B Instruct. Onze gecontroleerde experimenten onthullen dat fine-tuning-overdracht het meest effectief is wanneer de bron- en doelmodellen lineair verbonden zijn in de parameterruimte. Daarnaast demonstreren we dat fine-tuning-overdracht een sterker en computationeel efficiënter uitgangspunt biedt voor verdere fine-tuning. Tot slot stellen we een iteratieve aanpak voor van recyclen en vervolgens fine-tuning voor continue modelontwikkeling, wat zowel de efficiëntie als de effectiviteit verbetert. Onze bevindingen suggereren dat fine-tuning-overdracht een haalbare strategie is om trainingskosten te verlagen terwijl de modelprestaties behouden blijven.
English
Modern LLMs struggle with efficient updates, as each new pretrained model
version requires repeating expensive alignment processes. This challenge also
applies to domain- or language-specific models, where fine-tuning on
specialized data must be redone for every new base model release. In this
paper, we explore the transfer of fine-tuning updates between model versions.
Specifically, we derive the diff vector from one source model version, which
represents the weight changes from fine-tuning, and apply it to the base model
of a different target version. Through empirical evaluations on various
open-weight model versions, we show that transferring diff vectors can
significantly improve the target base model, often achieving performance
comparable to its fine-tuned counterpart. For example, reusing the fine-tuning
updates from Llama 3.0 8B leads to an absolute accuracy improvement of 10.7% on
GPQA over the base Llama 3.1 8B without additional training, surpassing Llama
3.1 8B Instruct. In a multilingual model development setting, we show that this
approach can significantly increase performance on target-language tasks
without retraining, achieving an absolute improvement of 4.7% and 15.5% on
Global MMLU for Malagasy and Turkish, respectively, compared to Llama 3.1 8B
Instruct. Our controlled experiments reveal that fine-tuning transfer is most
effective when the source and target models are linearly connected in the
parameter space. Additionally, we demonstrate that fine-tuning transfer offers
a stronger and more computationally efficient starting point for further
fine-tuning. Finally, we propose an iterative recycling-then-finetuning
approach for continuous model development, which improves both efficiency and
effectiveness. Our findings suggest that fine-tuning transfer is a viable
strategy to reduce training costs while maintaining model performance.Summary
AI-Generated Summary