Ottimizzazione Evolutiva delle Ricette di Fusione di Modelli

Abstract

Presentiamo una nuova applicazione degli algoritmi evolutivi per automatizzare la creazione di potenti modelli di base. Sebbene il merging di modelli sia emerso come un approccio promettente per lo sviluppo di LLM grazie alla sua economicità, attualmente si basa sull'intuizione umana e sulla conoscenza del dominio, limitandone il potenziale. Qui proponiamo un approccio evolutivo che supera questa limitazione scoprendo automaticamente combinazioni efficaci di diversi modelli open-source, sfruttando la loro intelligenza collettiva senza richiedere dati di addestramento aggiuntivi o risorse computazionali estese. Il nostro approccio opera sia nello spazio dei parametri che nello spazio del flusso di dati, consentendo un'ottimizzazione che va oltre i semplici pesi dei singoli modelli. Questo approccio facilita persino il merging tra domini diversi, generando modelli come un LLM giapponese con capacità di ragionamento matematico. Sorprendentemente, il nostro LLM giapponese per la matematica ha raggiunto prestazioni all'avanguardia su una varietà di benchmark consolidati per LLM giapponesi, superando persino modelli con un numero significativamente maggiore di parametri, nonostante non sia stato esplicitamente addestrato per tali compiti. Inoltre, un VLM giapponese culturalmente consapevole generato attraverso il nostro approccio dimostra la sua efficacia nel descrivere contenuti specifici della cultura giapponese, superando i precedenti VLM giapponesi. Questo lavoro non solo contribuisce con nuovi modelli all'avanguardia alla comunità open-source, ma introduce anche un nuovo paradigma per la composizione automatizzata di modelli, aprendo la strada all'esplorazione di approcci alternativi ed efficienti per lo sviluppo di modelli di base.

English

We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.

Ottimizzazione Evolutiva delle Ricette di Fusione di Modelli

Evolutionary Optimization of Model Merging Recipes

Abstract

Support