Evolutionäre Optimierung von Modellverschmelzungsvorschriften
Evolutionary Optimization of Model Merging Recipes
March 19, 2024
Autoren: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
cs.AI
Zusammenfassung
Wir präsentieren eine neuartige Anwendung evolutionärer Algorithmen zur Automatisierung der Erstellung leistungsstarker Grundlagenmodelle. Während das Zusammenführen von Modellen als vielversprechender Ansatz für die Entwicklung von LLM aufgrund seiner Kosteneffizienz aufgetaucht ist, basiert es derzeit auf menschlicher Intuition und Domänenwissen, was sein Potenzial einschränkt. Hier schlagen wir einen evolutionären Ansatz vor, der diese Einschränkung überwindet, indem er automatisch effektive Kombinationen verschiedener Open-Source-Modelle entdeckt, ihre kollektive Intelligenz nutzt, ohne umfangreiche zusätzliche Trainingsdaten oder Rechenleistung zu benötigen. Unser Ansatz arbeitet sowohl im Parameterbereich als auch im Datenflussbereich und ermöglicht eine Optimierung jenseits der Gewichte der einzelnen Modelle. Dieser Ansatz erleichtert sogar das domänenübergreifende Zusammenführen und generiert Modelle wie ein japanisches LLM mit mathematischen Denkfähigkeiten. Überraschenderweise erreichte unser japanisches Mathematik-LLM Spitzenleistungen in einer Vielzahl etablierter japanischer LLM-Benchmarks, übertraf sogar Modelle mit deutlich mehr Parametern, obwohl es nicht explizit für solche Aufgaben trainiert wurde. Darüber hinaus zeigte ein kulturell bewusstes japanisches VLM, das durch unseren Ansatz generiert wurde, seine Wirksamkeit bei der Beschreibung japanisch kulturspezifischer Inhalte und übertraf frühere japanische VLMs. Diese Arbeit trägt nicht nur neue Spitzenmodelle zur Open-Source-Community bei, sondern führt auch ein neues Paradigma für die automatisierte Modellkomposition ein und ebnet den Weg für die Erkundung alternativer, effizienter Ansätze zur Entwicklung von Grundlagenmodellen.
English
We present a novel application of evolutionary algorithms to automate the
creation of powerful foundation models. While model merging has emerged as a
promising approach for LLM development due to its cost-effectiveness, it
currently relies on human intuition and domain knowledge, limiting its
potential. Here, we propose an evolutionary approach that overcomes this
limitation by automatically discovering effective combinations of diverse
open-source models, harnessing their collective intelligence without requiring
extensive additional training data or compute. Our approach operates in both
parameter space and data flow space, allowing for optimization beyond just the
weights of the individual models. This approach even facilitates cross-domain
merging, generating models like a Japanese LLM with Math reasoning
capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art
performance on a variety of established Japanese LLM benchmarks, even
surpassing models with significantly more parameters, despite not being
explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM
generated through our approach demonstrates its effectiveness in describing
Japanese culture-specific content, outperforming previous Japanese VLMs. This
work not only contributes new state-of-the-art models back to the open-source
community, but also introduces a new paradigm for automated model composition,
paving the way for exploring alternative, efficient approaches to foundation
model development.Summary
AI-Generated Summary