Als je ze niet kunt gebruiken, recycleer ze dan: optimalisatie van samenvoeging op schaal vermindert prestatiecompromissen.

Samenvatting

Het samenvoegen van modellen heeft veelbelovende resultaten laten zien bij het combineren van expertmodellen, maar het voordeel van samenvoegen is onduidelijk bij het samenvoegen van "generalistische" modellen die zijn getraind op veel taken. We verkennen het samenvoegen in de context van grote (ongeveer 100 miljard) modellen door checkpoints te hergebruiken die compromissen vertonen tussen verschillende taken. Dergelijke checkpoints worden vaak gecreëerd in het proces van het ontwikkelen van een grensverleggend model, en veel suboptimale worden meestal verworpen. Gegeven een pool van modelcheckpoints verkregen uit verschillende trainingsruns (bijv. verschillende fasen, doelstellingen, hyperparameters en datamixen), die van nature compromissen laten zien tussen verschillende taalvaardigheden (bijv. instructieopvolging vs. codegeneratie), onderzoeken we of samenvoegen dergelijke suboptimale modellen kan hergebruiken tot een Pareto-optimaal model. Ons optimalisatiealgoritme stemt het gewicht van elk checkpoint af in een lineaire combinatie, resulterend in Pareto-optimale modellen die zowel individuele modellen als op samenvoeging gebaseerde baselines overtreffen. Verder onderzoek toont aan dat goede samenvoegingen meestal bijna alle checkpoints met niet-nul gewichten bevatten, wat aangeeft dat zelfs ogenschijnlijk slechte initiële checkpoints kunnen bijdragen aan goede uiteindelijke samenvoegingen.

English

Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging ``generalist'' models trained on many tasks. We explore merging in the context of large (sim100B) models, by recycling checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and many suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in a Pareto-optimal models that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.

Als je ze niet kunt gebruiken, recycleer ze dan: optimalisatie van samenvoeging op schaal vermindert prestatiecompromissen.

If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Samenvatting

Support