Si no puedes usarlos, recíclalos: Optimización de la fusión a escala para mitigar compensaciones de rendimiento

Resumen

La fusión de modelos ha demostrado un gran potencial para combinar modelos expertos, pero el beneficio de fusionar es incierto al fusionar modelos "generalistas" entrenados en muchas tareas. Exploramos la fusión en el contexto de modelos grandes (aprox. 100 mil millones de parámetros), mediante el reciclaje de puntos de control que muestran compensaciones entre diferentes tareas. Estos puntos de control suelen crearse en el proceso de desarrollo de un modelo de vanguardia, y muchos subóptimos suelen descartarse. Dado un conjunto de puntos de control de modelos obtenidos de diferentes ejecuciones de entrenamiento (por ejemplo, diferentes etapas, objetivos, hiperparámetros y combinaciones de datos), que naturalmente muestran compensaciones en diferentes capacidades lingüísticas (por ejemplo, seguimiento de instrucciones vs. generación de código), investigamos si la fusión puede reciclar dichos modelos subóptimos en uno óptimo de Pareto. Nuestro algoritmo de optimización ajusta el peso de cada punto de control en una combinación lineal, lo que resulta en modelos óptimos de Pareto que superan tanto a los modelos individuales como a las líneas de base basadas en fusiones. Un análisis adicional muestra que las fusiones exitosas tienden a incluir casi todos los puntos de control con pesos no nulos, lo que indica que incluso los puntos de control iniciales aparentemente malos pueden contribuir a fusiones finales exitosas.

English

Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging ``generalist'' models trained on many tasks. We explore merging in the context of large (sim100B) models, by recycling checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and many suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in a Pareto-optimal models that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.

Si no puedes usarlos, recíclalos: Optimización de la fusión a escala para mitigar compensaciones de rendimiento

If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Resumen

Support