Optimisation évolutive des recettes de fusion de modèles
Evolutionary Optimization of Model Merging Recipes
March 19, 2024
Auteurs: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
cs.AI
Résumé
Nous présentons une nouvelle application des algorithmes évolutionnaires pour automatiser la création de modèles de base puissants. Bien que la fusion de modèles soit apparue comme une approche prometteuse pour le développement de LLM en raison de son rapport coût-efficacité, elle repose actuellement sur l'intuition humaine et les connaissances du domaine, limitant ainsi son potentiel. Ici, nous proposons une approche évolutionnaire qui surmonte cette limitation en découvrant automatiquement des combinaisons efficaces de divers modèles open-source, exploitant leur intelligence collective sans nécessiter de données d'entraînement supplémentaires ou de puissance de calcul importante. Notre approche opère à la fois dans l'espace des paramètres et dans l'espace des flux de données, permettant une optimisation allant au-delà des simples poids des modèles individuels. Cette approche facilite même la fusion interdomaines, générant des modèles tels qu'un LLM japonais doté de capacités de raisonnement mathématique. Étonnamment, notre LLM japonais pour les mathématiques a atteint des performances de pointe sur une variété de benchmarks établis pour les LLM japonais, surpassant même des modèles avec un nombre de paramètres significativement plus élevé, bien qu'il n'ait pas été explicitement entraîné pour de telles tâches. De plus, un VLM japonais sensible à la culture, généré grâce à notre approche, démontre son efficacité à décrire du contenu spécifique à la culture japonaise, surpassant les précédents VLM japonais. Ce travail contribue non seulement à la communauté open-source en fournissant de nouveaux modèles de pointe, mais introduit également un nouveau paradigme pour la composition automatisée de modèles, ouvrant la voie à l'exploration d'approches alternatives et efficaces pour le développement de modèles de base.
English
We present a novel application of evolutionary algorithms to automate the
creation of powerful foundation models. While model merging has emerged as a
promising approach for LLM development due to its cost-effectiveness, it
currently relies on human intuition and domain knowledge, limiting its
potential. Here, we propose an evolutionary approach that overcomes this
limitation by automatically discovering effective combinations of diverse
open-source models, harnessing their collective intelligence without requiring
extensive additional training data or compute. Our approach operates in both
parameter space and data flow space, allowing for optimization beyond just the
weights of the individual models. This approach even facilitates cross-domain
merging, generating models like a Japanese LLM with Math reasoning
capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art
performance on a variety of established Japanese LLM benchmarks, even
surpassing models with significantly more parameters, despite not being
explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM
generated through our approach demonstrates its effectiveness in describing
Japanese culture-specific content, outperforming previous Japanese VLMs. This
work not only contributes new state-of-the-art models back to the open-source
community, but also introduces a new paradigm for automated model composition,
paving the way for exploring alternative, efficient approaches to foundation
model development.Summary
AI-Generated Summary