Als je ze niet kunt gebruiken, recycleer ze dan: optimalisatie van samenvoeging op schaal vermindert prestatiecompromissen.
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs
December 5, 2024
Auteurs: Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé
cs.AI
Samenvatting
Het samenvoegen van modellen heeft veelbelovende resultaten laten zien bij het combineren van expertmodellen, maar het voordeel van samenvoegen is onduidelijk bij het samenvoegen van "generalistische" modellen die zijn getraind op veel taken. We verkennen het samenvoegen in de context van grote (ongeveer 100 miljard) modellen door checkpoints te hergebruiken die compromissen vertonen tussen verschillende taken. Dergelijke checkpoints worden vaak gecreëerd in het proces van het ontwikkelen van een grensverleggend model, en veel suboptimale worden meestal verworpen. Gegeven een pool van modelcheckpoints verkregen uit verschillende trainingsruns (bijv. verschillende fasen, doelstellingen, hyperparameters en datamixen), die van nature compromissen laten zien tussen verschillende taalvaardigheden (bijv. instructieopvolging vs. codegeneratie), onderzoeken we of samenvoegen dergelijke suboptimale modellen kan hergebruiken tot een Pareto-optimaal model. Ons optimalisatiealgoritme stemt het gewicht van elk checkpoint af in een lineaire combinatie, resulterend in Pareto-optimale modellen die zowel individuele modellen als op samenvoeging gebaseerde baselines overtreffen. Verder onderzoek toont aan dat goede samenvoegingen meestal bijna alle checkpoints met niet-nul gewichten bevatten, wat aangeeft dat zelfs ogenschijnlijk slechte initiële checkpoints kunnen bijdragen aan goede uiteindelijke samenvoegingen.
English
Model merging has shown great promise at combining expert models, but the
benefit of merging is unclear when merging ``generalist'' models trained on
many tasks. We explore merging in the context of large (sim100B) models, by
recycling checkpoints that exhibit tradeoffs among different tasks.
Such checkpoints are often created in the process of developing a frontier
model, and many suboptimal ones are usually discarded. Given a pool of model
checkpoints obtained from different training runs (e.g., different stages,
objectives, hyperparameters, and data mixtures), which naturally show tradeoffs
across different language capabilities (e.g., instruction following vs. code
generation), we investigate whether merging can recycle such suboptimal models
into a Pareto-optimal one. Our optimization algorithm tunes the weight of each
checkpoint in a linear combination, resulting in a Pareto-optimal models that
outperforms both individual models and merge-based baselines. Further analysis
shows that good merges tend to include almost all checkpoints with with
non-zero weights, indicating that even seemingly bad initial checkpoints can
contribute to good final merges.