Ottimizzazione Evolutiva delle Ricette di Fusione di Modelli
Evolutionary Optimization of Model Merging Recipes
March 19, 2024
Autori: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
cs.AI
Abstract
Presentiamo una nuova applicazione degli algoritmi evolutivi per automatizzare la creazione di potenti modelli di base. Sebbene il merging di modelli sia emerso come un approccio promettente per lo sviluppo di LLM grazie alla sua economicità, attualmente si basa sull'intuizione umana e sulla conoscenza del dominio, limitandone il potenziale. Qui proponiamo un approccio evolutivo che supera questa limitazione scoprendo automaticamente combinazioni efficaci di diversi modelli open-source, sfruttando la loro intelligenza collettiva senza richiedere dati di addestramento aggiuntivi o risorse computazionali estese. Il nostro approccio opera sia nello spazio dei parametri che nello spazio del flusso di dati, consentendo un'ottimizzazione che va oltre i semplici pesi dei singoli modelli. Questo approccio facilita persino il merging tra domini diversi, generando modelli come un LLM giapponese con capacità di ragionamento matematico. Sorprendentemente, il nostro LLM giapponese per la matematica ha raggiunto prestazioni all'avanguardia su una varietà di benchmark consolidati per LLM giapponesi, superando persino modelli con un numero significativamente maggiore di parametri, nonostante non sia stato esplicitamente addestrato per tali compiti. Inoltre, un VLM giapponese culturalmente consapevole generato attraverso il nostro approccio dimostra la sua efficacia nel descrivere contenuti specifici della cultura giapponese, superando i precedenti VLM giapponesi. Questo lavoro non solo contribuisce con nuovi modelli all'avanguardia alla comunità open-source, ma introduce anche un nuovo paradigma per la composizione automatizzata di modelli, aprendo la strada all'esplorazione di approcci alternativi ed efficienti per lo sviluppo di modelli di base.
English
We present a novel application of evolutionary algorithms to automate the
creation of powerful foundation models. While model merging has emerged as a
promising approach for LLM development due to its cost-effectiveness, it
currently relies on human intuition and domain knowledge, limiting its
potential. Here, we propose an evolutionary approach that overcomes this
limitation by automatically discovering effective combinations of diverse
open-source models, harnessing their collective intelligence without requiring
extensive additional training data or compute. Our approach operates in both
parameter space and data flow space, allowing for optimization beyond just the
weights of the individual models. This approach even facilitates cross-domain
merging, generating models like a Japanese LLM with Math reasoning
capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art
performance on a variety of established Japanese LLM benchmarks, even
surpassing models with significantly more parameters, despite not being
explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM
generated through our approach demonstrates its effectiveness in describing
Japanese culture-specific content, outperforming previous Japanese VLMs. This
work not only contributes new state-of-the-art models back to the open-source
community, but also introduces a new paradigm for automated model composition,
paving the way for exploring alternative, efficient approaches to foundation
model development.