Если вы не можете использовать их, переработайте их: оптимизация слияния в масштабе смягчает компромиссы в производительности.

Аннотация

Слияние моделей показало большой потенциал в объединении экспертных моделей, однако польза от слияния неясна при объединении моделей "универсального" типа, обученных на множестве задач. Мы исследуем слияние в контексте крупных (прибл. 100 млрд) моделей, путем повторного использования контрольных точек, демонстрирующих компромиссы между различными задачами. Такие контрольные точки часто создаются в процессе разработки фронтовой модели, и многие из них обычно отбрасываются как неоптимальные. Учитывая набор контрольных точек моделей, полученных из различных запусков обучения (например, различные этапы, цели, гиперпараметры и смеси данных), которые естественным образом демонстрируют компромиссы между различными языковыми возможностями (например, следование инструкциям против генерации кода), мы исследуем, может ли слияние повторно использовать такие неоптимальные модели для создания Парето-оптимальной. Наш алгоритм оптимизации настраивает вес каждой контрольной точки в линейной комбинации, что приводит к Парето-оптимальным моделям, превосходящим как отдельные модели, так и базовые модели на основе слияния. Дальнейший анализ показывает, что хорошие слияния обычно включают практически все контрольные точки с ненулевыми весами, что указывает на то, что даже кажущиеся плохими начальные контрольные точки могут способствовать созданию хороших конечных слияний.

English

Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging ``generalist'' models trained on many tasks. We explore merging in the context of large (sim100B) models, by recycling checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and many suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in a Pareto-optimal models that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.

Если вы не можете использовать их, переработайте их: оптимизация слияния в масштабе смягчает компромиссы в производительности.

If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Аннотация

Support