Desarrollo Eficiente de Modelos mediante Ajuste Fino por Transferencia
Efficient Model Development through Fine-tuning Transfer
March 25, 2025
Autores: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
cs.AI
Resumen
Los LLM modernos enfrentan dificultades con las actualizaciones eficientes, ya que cada nueva versión de modelo preentrenado requiere repetir costosos procesos de alineación. Este desafío también se aplica a los modelos específicos de dominio o idioma, donde el ajuste fino en datos especializados debe rehacerse para cada nueva versión del modelo base. En este artículo, exploramos la transferencia de actualizaciones de ajuste fino entre versiones de modelos. Específicamente, derivamos el vector de diferencias de una versión de modelo fuente, que representa los cambios en los pesos debido al ajuste fino, y lo aplicamos al modelo base de una versión objetivo diferente. A través de evaluaciones empíricas en varias versiones de modelos de código abierto, demostramos que la transferencia de vectores de diferencias puede mejorar significativamente el modelo base objetivo, logrando a menudo un rendimiento comparable a su contraparte ajustada. Por ejemplo, reutilizar las actualizaciones de ajuste fino de Llama 3.0 8B conduce a una mejora absoluta de precisión del 10.7% en GPQA sobre el modelo base Llama 3.1 8B sin entrenamiento adicional, superando a Llama 3.1 8B Instruct. En un entorno de desarrollo de modelos multilingües, mostramos que este enfoque puede aumentar significativamente el rendimiento en tareas de idioma objetivo sin reentrenamiento, logrando mejoras absolutas del 4.7% y 15.5% en Global MMLU para malgache y turco, respectivamente, en comparación con Llama 3.1 8B Instruct. Nuestros experimentos controlados revelan que la transferencia de ajuste fino es más efectiva cuando los modelos fuente y objetivo están conectados linealmente en el espacio de parámetros. Además, demostramos que la transferencia de ajuste fino ofrece un punto de partida más sólido y computacionalmente eficiente para un ajuste fino adicional. Finalmente, proponemos un enfoque iterativo de reciclaje-y-ajuste fino para el desarrollo continuo de modelos, que mejora tanto la eficiencia como la efectividad. Nuestros hallazgos sugieren que la transferencia de ajuste fino es una estrategia viable para reducir los costos de entrenamiento manteniendo el rendimiento del modelo.
English
Modern LLMs struggle with efficient updates, as each new pretrained model
version requires repeating expensive alignment processes. This challenge also
applies to domain- or language-specific models, where fine-tuning on
specialized data must be redone for every new base model release. In this
paper, we explore the transfer of fine-tuning updates between model versions.
Specifically, we derive the diff vector from one source model version, which
represents the weight changes from fine-tuning, and apply it to the base model
of a different target version. Through empirical evaluations on various
open-weight model versions, we show that transferring diff vectors can
significantly improve the target base model, often achieving performance
comparable to its fine-tuned counterpart. For example, reusing the fine-tuning
updates from Llama 3.0 8B leads to an absolute accuracy improvement of 10.7% on
GPQA over the base Llama 3.1 8B without additional training, surpassing Llama
3.1 8B Instruct. In a multilingual model development setting, we show that this
approach can significantly increase performance on target-language tasks
without retraining, achieving an absolute improvement of 4.7% and 15.5% on
Global MMLU for Malagasy and Turkish, respectively, compared to Llama 3.1 8B
Instruct. Our controlled experiments reveal that fine-tuning transfer is most
effective when the source and target models are linearly connected in the
parameter space. Additionally, we demonstrate that fine-tuning transfer offers
a stronger and more computationally efficient starting point for further
fine-tuning. Finally, we propose an iterative recycling-then-finetuning
approach for continuous model development, which improves both efficiency and
effectiveness. Our findings suggest that fine-tuning transfer is a viable
strategy to reduce training costs while maintaining model performance.Summary
AI-Generated Summary