Se não puder usá-los, recicle-os: Otimizando a Fusão em Escala para Mitigar Compromissos de Desempenho

Resumo

A fusão de modelos tem mostrado grande promessa na combinação de modelos especialistas, mas o benefício da fusão é incerto ao combinar modelos "generalistas" treinados em várias tarefas. Exploramos a fusão no contexto de modelos grandes (aprox. 100 bilhões de parâmetros), reciclando checkpoints que apresentam compensações entre diferentes tarefas. Tais checkpoints são frequentemente criados no processo de desenvolvimento de um modelo de fronteira, e muitos subótimos são geralmente descartados. Dado um conjunto de checkpoints de modelo obtidos de diferentes execuções de treinamento (por exemplo, diferentes estágios, objetivos, hiperparâmetros e misturas de dados), que naturalmente mostram compensações em diferentes capacidades linguísticas (por exemplo, seguir instruções versus geração de código), investigamos se a fusão pode reciclar tais modelos subótimos em um modelo Pareto-ótimo. Nosso algoritmo de otimização ajusta o peso de cada checkpoint em uma combinação linear, resultando em modelos Pareto-ótimos que superam tanto os modelos individuais quanto as bases de fusão. Análises adicionais mostram que boas fusões tendem a incluir quase todos os checkpoints com pesos não nulos, indicando que até mesmo checkpoints iniciais aparentemente ruins podem contribuir para boas fusões finais.

English

Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging ``generalist'' models trained on many tasks. We explore merging in the context of large (sim100B) models, by recycling checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and many suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in a Pareto-optimal models that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.

Se não puder usá-los, recicle-os: Otimizando a Fusão em Escala para Mitigar Compromissos de Desempenho

If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Resumo

Support