Wenn Sie sie nicht verwenden können, recyceln Sie sie: Optimierung von Zusammenführungen im großen Maßstab zur Minderung von Leistungskompromissen

papers.abstract

Die Zusammenführung von Modellen hat großes Potenzial gezeigt, Expertenmodelle zu kombinieren, aber der Nutzen der Zusammenführung ist unklar, wenn "Generalisten"-Modelle zusammengeführt werden, die auf vielen Aufgaben trainiert wurden. Wir untersuchen die Zusammenführung im Kontext großer (ca. 100 Mrd.) Modelle, indem wir Checkpoints wiederverwenden, die Kompromisse zwischen verschiedenen Aufgaben aufweisen. Solche Checkpoints werden oft im Prozess der Entwicklung eines Spitzenmodells erstellt, und viele suboptimale werden in der Regel verworfen. Angesichts eines Pools von Modell-Checkpoints, die aus verschiedenen Trainingsläufen stammen (z. B. verschiedene Stufen, Ziele, Hyperparameter und Datengemische) und die natürlicherweise Kompromisse bei verschiedenen Sprachfähigkeiten aufzeigen (z. B. Anweisungen befolgen vs. Code-Generierung), untersuchen wir, ob durch Zusammenführung solche suboptimalen Modelle in ein Pareto-optimales Modell recycelt werden können. Unser Optimierungsalgorithmus stimmt das Gewicht jedes Checkpoints in einer linearen Kombination ab, was zu Pareto-optimalen Modellen führt, die sowohl einzelne Modelle als auch merge-basierte Baselines übertreffen. Eine weitere Analyse zeigt, dass gute Zusammenführungen dazu neigen, fast alle Checkpoints mit nicht-null Gewichten einzuschließen, was darauf hindeutet, dass selbst scheinbar schlechte anfängliche Checkpoints zu guten endgültigen Zusammenführungen beitragen können.

English

Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging ``generalist'' models trained on many tasks. We explore merging in the context of large (sim100B) models, by recycling checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and many suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in a Pareto-optimal models that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.

Wenn Sie sie nicht verwenden können, recyceln Sie sie: Optimierung von Zusammenführungen im großen Maßstab zur Minderung von Leistungskompromissen

If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

papers.abstract

Support