Эффективная разработка моделей посредством тонкой настройки трансферного обучения
Efficient Model Development through Fine-tuning Transfer
March 25, 2025
Авторы: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
cs.AI
Аннотация
Современные крупные языковые модели (LLM) сталкиваются с трудностями в эффективном обновлении, так как каждая новая версия предварительно обученной модели требует повторения дорогостоящих процессов согласования. Эта проблема также актуальна для моделей, специализированных на определённых областях или языках, где тонкая настройка на специализированных данных должна выполняться заново для каждого нового релиза базовой модели. В данной работе мы исследуем перенос обновлений тонкой настройки между версиями моделей. В частности, мы извлекаем вектор изменений (diff vector) из одной исходной версии модели, который отражает изменения весов в результате тонкой настройки, и применяем его к базовой модели другой целевой версии. Эмпирические оценки на различных версиях моделей с открытыми весами показывают, что перенос векторов изменений может значительно улучшить целевую базовую модель, часто достигая производительности, сравнимой с её тонко настроенным аналогом. Например, повторное использование обновлений тонкой настройки от Llama 3.0 8B приводит к абсолютному улучшению точности на 10,7% на GPQA по сравнению с базовой Llama 3.1 8B без дополнительного обучения, превосходя Llama 3.1 8B Instruct. В контексте разработки многоязычных моделей мы показываем, что этот подход может значительно повысить производительность на задачах целевого языка без повторного обучения, достигая абсолютного улучшения на 4,7% и 15,5% на Global MMLU для малагасийского и турецкого языков соответственно по сравнению с Llama 3.1 8B Instruct. Наши контролируемые эксперименты показывают, что перенос тонкой настройки наиболее эффективен, когда исходная и целевая модели линейно связаны в пространстве параметров. Кроме того, мы демонстрируем, что перенос тонкой настройки предоставляет более сильную и вычислительно эффективную отправную точку для дальнейшей тонкой настройки. Наконец, мы предлагаем итеративный подход "переработка-затем-тонкая настройка" для непрерывной разработки моделей, который улучшает как эффективность, так и результативность. Наши результаты свидетельствуют о том, что перенос тонкой настройки является жизнеспособной стратегией для снижения затрат на обучение при сохранении производительности модели.
English
Modern LLMs struggle with efficient updates, as each new pretrained model
version requires repeating expensive alignment processes. This challenge also
applies to domain- or language-specific models, where fine-tuning on
specialized data must be redone for every new base model release. In this
paper, we explore the transfer of fine-tuning updates between model versions.
Specifically, we derive the diff vector from one source model version, which
represents the weight changes from fine-tuning, and apply it to the base model
of a different target version. Through empirical evaluations on various
open-weight model versions, we show that transferring diff vectors can
significantly improve the target base model, often achieving performance
comparable to its fine-tuned counterpart. For example, reusing the fine-tuning
updates from Llama 3.0 8B leads to an absolute accuracy improvement of 10.7% on
GPQA over the base Llama 3.1 8B without additional training, surpassing Llama
3.1 8B Instruct. In a multilingual model development setting, we show that this
approach can significantly increase performance on target-language tasks
without retraining, achieving an absolute improvement of 4.7% and 15.5% on
Global MMLU for Malagasy and Turkish, respectively, compared to Llama 3.1 8B
Instruct. Our controlled experiments reveal that fine-tuning transfer is most
effective when the source and target models are linearly connected in the
parameter space. Additionally, we demonstrate that fine-tuning transfer offers
a stronger and more computationally efficient starting point for further
fine-tuning. Finally, we propose an iterative recycling-then-finetuning
approach for continuous model development, which improves both efficiency and
effectiveness. Our findings suggest that fine-tuning transfer is a viable
strategy to reduce training costs while maintaining model performance.Summary
AI-Generated Summary