ChatPaper.aiChatPaper

Desenvolvimento Eficiente de Modelos por meio de Ajuste Fino de Transferência

Efficient Model Development through Fine-tuning Transfer

March 25, 2025
Autores: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
cs.AI

Resumo

Os LLMs modernos enfrentam dificuldades com atualizações eficientes, pois cada nova versão de modelo pré-treinado exige a repetição de processos caros de alinhamento. Esse desafio também se aplica a modelos específicos de domínio ou idioma, onde o ajuste fino em dados especializados deve ser refeito para cada nova versão do modelo base. Neste artigo, exploramos a transferência de atualizações de ajuste fino entre versões de modelos. Especificamente, derivamos o vetor de diferença de uma versão de modelo de origem, que representa as alterações de peso decorrentes do ajuste fino, e o aplicamos ao modelo base de uma versão de destino diferente. Por meio de avaliações empíricas em várias versões de modelos de código aberto, mostramos que a transferência de vetores de diferença pode melhorar significativamente o modelo base de destino, muitas vezes alcançando desempenho comparável ao seu equivalente ajustado. Por exemplo, reutilizar as atualizações de ajuste fino do Llama 3.0 8B resulta em uma melhoria absoluta de precisão de 10,7% no GPQA em relação ao Llama 3.1 8B base sem treinamento adicional, superando o Llama 3.1 8B Instruct. Em um cenário de desenvolvimento de modelos multilíngues, mostramos que essa abordagem pode aumentar significativamente o desempenho em tarefas de idioma de destino sem retreinamento, alcançando uma melhoria absoluta de 4,7% e 15,5% no Global MMLU para o malgaxe e o turco, respectivamente, em comparação com o Llama 3.1 8B Instruct. Nossos experimentos controlados revelam que a transferência de ajuste fino é mais eficaz quando os modelos de origem e destino estão linearmente conectados no espaço de parâmetros. Além disso, demonstramos que a transferência de ajuste fino oferece um ponto de partida mais forte e computacionalmente eficiente para ajustes finos adicionais. Por fim, propomos uma abordagem iterativa de reciclagem seguida de ajuste fino para o desenvolvimento contínuo de modelos, que melhora tanto a eficiência quanto a eficácia. Nossas descobertas sugerem que a transferência de ajuste fino é uma estratégia viável para reduzir os custos de treinamento enquanto mantém o desempenho do modelo.
English
Modern LLMs struggle with efficient updates, as each new pretrained model version requires repeating expensive alignment processes. This challenge also applies to domain- or language-specific models, where fine-tuning on specialized data must be redone for every new base model release. In this paper, we explore the transfer of fine-tuning updates between model versions. Specifically, we derive the diff vector from one source model version, which represents the weight changes from fine-tuning, and apply it to the base model of a different target version. Through empirical evaluations on various open-weight model versions, we show that transferring diff vectors can significantly improve the target base model, often achieving performance comparable to its fine-tuned counterpart. For example, reusing the fine-tuning updates from Llama 3.0 8B leads to an absolute accuracy improvement of 10.7% on GPQA over the base Llama 3.1 8B without additional training, surpassing Llama 3.1 8B Instruct. In a multilingual model development setting, we show that this approach can significantly increase performance on target-language tasks without retraining, achieving an absolute improvement of 4.7% and 15.5% on Global MMLU for Malagasy and Turkish, respectively, compared to Llama 3.1 8B Instruct. Our controlled experiments reveal that fine-tuning transfer is most effective when the source and target models are linearly connected in the parameter space. Additionally, we demonstrate that fine-tuning transfer offers a stronger and more computationally efficient starting point for further fine-tuning. Finally, we propose an iterative recycling-then-finetuning approach for continuous model development, which improves both efficiency and effectiveness. Our findings suggest that fine-tuning transfer is a viable strategy to reduce training costs while maintaining model performance.

Summary

AI-Generated Summary

PDF42March 27, 2025