Si vous ne pouvez pas les utiliser, recyclez-les : Optimisation de la fusion à grande échelle pour atténuer les compromis de performance
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs
December 5, 2024
Auteurs: Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé
cs.AI
Résumé
La fusion de modèles a montré un grand potentiel pour combiner des modèles d'experts, mais l'avantage de la fusion est incertain lors de la fusion de modèles "généralistes" formés sur de nombreuses tâches. Nous explorons la fusion dans le contexte de grands modèles (environ 100 milliards de paramètres), en recyclant des points de contrôle qui présentent des compromis entre différentes tâches. Ces points de contrôle sont souvent créés dans le processus de développement d'un modèle de pointe, et de nombreux points de contrôle sous-optimaux sont généralement jetés. Étant donné un ensemble de points de contrôle de modèles obtenus à partir de différentes exécutions d'entraînement (par exemple, différentes étapes, objectifs, hyperparamètres et mélanges de données), qui montrent naturellement des compromis entre différentes capacités linguistiques (par exemple, suivi des instructions vs génération de code), nous étudions si la fusion peut recycler de tels modèles sous-optimaux en un modèle optimal de Pareto. Notre algorithme d'optimisation ajuste le poids de chaque point de contrôle dans une combinaison linéaire, donnant ainsi des modèles optimaux de Pareto qui surpassent à la fois les modèles individuels et les bases de fusion. Une analyse plus approfondie montre que de bonnes fusions tendent à inclure presque tous les points de contrôle avec des poids non nuls, indiquant que même des points de contrôle initiaux apparemment mauvais peuvent contribuer à de bonnes fusions finales.
English
Model merging has shown great promise at combining expert models, but the
benefit of merging is unclear when merging ``generalist'' models trained on
many tasks. We explore merging in the context of large (sim100B) models, by
recycling checkpoints that exhibit tradeoffs among different tasks.
Such checkpoints are often created in the process of developing a frontier
model, and many suboptimal ones are usually discarded. Given a pool of model
checkpoints obtained from different training runs (e.g., different stages,
objectives, hyperparameters, and data mixtures), which naturally show tradeoffs
across different language capabilities (e.g., instruction following vs. code
generation), we investigate whether merging can recycle such suboptimal models
into a Pareto-optimal one. Our optimization algorithm tunes the weight of each
checkpoint in a linear combination, resulting in a Pareto-optimal models that
outperforms both individual models and merge-based baselines. Further analysis
shows that good merges tend to include almost all checkpoints with with
non-zero weights, indicating that even seemingly bad initial checkpoints can
contribute to good final merges.Summary
AI-Generated Summary