Si vous ne pouvez pas les utiliser, recyclez-les : Optimisation de la fusion à grande échelle pour atténuer les compromis de performance

Résumé

La fusion de modèles a montré un grand potentiel pour combiner des modèles d'experts, mais l'avantage de la fusion est incertain lors de la fusion de modèles "généralistes" formés sur de nombreuses tâches. Nous explorons la fusion dans le contexte de grands modèles (environ 100 milliards de paramètres), en recyclant des points de contrôle qui présentent des compromis entre différentes tâches. Ces points de contrôle sont souvent créés dans le processus de développement d'un modèle de pointe, et de nombreux points de contrôle sous-optimaux sont généralement jetés. Étant donné un ensemble de points de contrôle de modèles obtenus à partir de différentes exécutions d'entraînement (par exemple, différentes étapes, objectifs, hyperparamètres et mélanges de données), qui montrent naturellement des compromis entre différentes capacités linguistiques (par exemple, suivi des instructions vs génération de code), nous étudions si la fusion peut recycler de tels modèles sous-optimaux en un modèle optimal de Pareto. Notre algorithme d'optimisation ajuste le poids de chaque point de contrôle dans une combinaison linéaire, donnant ainsi des modèles optimaux de Pareto qui surpassent à la fois les modèles individuels et les bases de fusion. Une analyse plus approfondie montre que de bonnes fusions tendent à inclure presque tous les points de contrôle avec des poids non nuls, indiquant que même des points de contrôle initiaux apparemment mauvais peuvent contribuer à de bonnes fusions finales.

English

Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging ``generalist'' models trained on many tasks. We explore merging in the context of large (sim100B) models, by recycling checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and many suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in a Pareto-optimal models that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.

Si vous ne pouvez pas les utiliser, recyclez-les : Optimisation de la fusion à grande échelle pour atténuer les compromis de performance

If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Résumé

Summary

Support

Support