Если вы не можете использовать их, переработайте их: оптимизация слияния в масштабе смягчает компромиссы в производительности.
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs
December 5, 2024
Авторы: Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé
cs.AI
Аннотация
Слияние моделей показало большой потенциал в объединении экспертных моделей, однако польза от слияния неясна при объединении моделей "универсального" типа, обученных на множестве задач. Мы исследуем слияние в контексте крупных (прибл. 100 млрд) моделей, путем повторного использования контрольных точек, демонстрирующих компромиссы между различными задачами. Такие контрольные точки часто создаются в процессе разработки фронтовой модели, и многие из них обычно отбрасываются как неоптимальные. Учитывая набор контрольных точек моделей, полученных из различных запусков обучения (например, различные этапы, цели, гиперпараметры и смеси данных), которые естественным образом демонстрируют компромиссы между различными языковыми возможностями (например, следование инструкциям против генерации кода), мы исследуем, может ли слияние повторно использовать такие неоптимальные модели для создания Парето-оптимальной. Наш алгоритм оптимизации настраивает вес каждой контрольной точки в линейной комбинации, что приводит к Парето-оптимальным моделям, превосходящим как отдельные модели, так и базовые модели на основе слияния. Дальнейший анализ показывает, что хорошие слияния обычно включают практически все контрольные точки с ненулевыми весами, что указывает на то, что даже кажущиеся плохими начальные контрольные точки могут способствовать созданию хороших конечных слияний.
English
Model merging has shown great promise at combining expert models, but the
benefit of merging is unclear when merging ``generalist'' models trained on
many tasks. We explore merging in the context of large (sim100B) models, by
recycling checkpoints that exhibit tradeoffs among different tasks.
Such checkpoints are often created in the process of developing a frontier
model, and many suboptimal ones are usually discarded. Given a pool of model
checkpoints obtained from different training runs (e.g., different stages,
objectives, hyperparameters, and data mixtures), which naturally show tradeoffs
across different language capabilities (e.g., instruction following vs. code
generation), we investigate whether merging can recycle such suboptimal models
into a Pareto-optimal one. Our optimization algorithm tunes the weight of each
checkpoint in a linear combination, resulting in a Pareto-optimal models that
outperforms both individual models and merge-based baselines. Further analysis
shows that good merges tend to include almost all checkpoints with with
non-zero weights, indicating that even seemingly bad initial checkpoints can
contribute to good final merges.Summary
AI-Generated Summary