Evolutionaire optimalisatie van model-samenvoegingsrecepten
Evolutionary Optimization of Model Merging Recipes
March 19, 2024
Auteurs: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
cs.AI
Samenvatting
We presenteren een nieuwe toepassing van evolutionaire algoritmen om het
creëren van krachtige foundationmodellen te automatiseren. Hoewel modelmerging
naar voren is gekomen als een veelbelovende benadering voor de ontwikkeling van
LLM's vanwege de kosteneffectiviteit, is het momenteel afhankelijk van menselijke
intuïtie en domeinkennis, wat het potentieel beperkt. Hier stellen we een
evolutionaire benadering voor die deze beperking overwint door effectieve
combinaties van diverse open-source modellen automatisch te ontdekken, waarbij
hun collectieve intelligentie wordt benut zonder uitgebreide aanvullende
trainingsdata of rekenkracht te vereisen. Onze benadering opereert zowel in de
parameterruimte als in de dataflowruimte, waardoor optimalisatie mogelijk is
die verder gaat dan alleen de gewichten van de individuele modellen. Deze
benadering maakt zelfs cross-domain merging mogelijk, wat modellen genereert
zoals een Japanse LLM met wiskundige redeneervaardigheden. Verrassend genoeg
behaalde onze Japanse Math LLM state-of-the-art prestaties op een verscheidenheid
aan gevestigde Japanse LLM-benchmarks, en overtrof zelfs modellen met aanzienlijk
meer parameters, ondanks dat het niet expliciet voor dergelijke taken was
getraind. Bovendien toont een cultureel bewuste Japanse VLM, gegenereerd via
onze benadering, zijn effectiviteit in het beschrijven van Japans
cultuurspecifieke inhoud, en presteert beter dan eerdere Japanse VLM's. Dit werk
draagt niet alleen nieuwe state-of-the-art modellen bij aan de open-source
gemeenschap, maar introduceert ook een nieuw paradigma voor geautomatiseerde
modelcompositie, wat de weg effent voor het verkennen van alternatieve,
efficiënte benaderingen voor de ontwikkeling van foundationmodellen.
English
We present a novel application of evolutionary algorithms to automate the
creation of powerful foundation models. While model merging has emerged as a
promising approach for LLM development due to its cost-effectiveness, it
currently relies on human intuition and domain knowledge, limiting its
potential. Here, we propose an evolutionary approach that overcomes this
limitation by automatically discovering effective combinations of diverse
open-source models, harnessing their collective intelligence without requiring
extensive additional training data or compute. Our approach operates in both
parameter space and data flow space, allowing for optimization beyond just the
weights of the individual models. This approach even facilitates cross-domain
merging, generating models like a Japanese LLM with Math reasoning
capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art
performance on a variety of established Japanese LLM benchmarks, even
surpassing models with significantly more parameters, despite not being
explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM
generated through our approach demonstrates its effectiveness in describing
Japanese culture-specific content, outperforming previous Japanese VLMs. This
work not only contributes new state-of-the-art models back to the open-source
community, but also introduces a new paradigm for automated model composition,
paving the way for exploring alternative, efficient approaches to foundation
model development.