Self-MoE: Verso Modelli Linguistici di Grande Scala Composizionali con Esperti Auto-Specializzati
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts
June 17, 2024
Autori: Junmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter
cs.AI
Abstract
Presentiamo Self-MoE, un approccio che trasforma un LLM monolitico in un sistema composito e modulare di esperti auto-specializzati, denominato MiXSE (MiXture of Self-specialized Experts). Il nostro approccio sfrutta l'auto-specializzazione, che costruisce moduli esperti utilizzando dati sintetici auto-generati, ciascuno dotato di un LLM di base condiviso e incorporando un routing auto-ottimizzato. Ciò consente una gestione dinamica e specifica per capacità di vari task target, migliorando le capacità complessive senza la necessità di estesi dati etichettati manualmente e parametri aggiuntivi. I nostri risultati empirici rivelano che la specializzazione degli LLM può presentare potenziali compromessi nelle prestazioni su task non specializzati. D'altro canto, il nostro Self-MoE dimostra miglioramenti sostanziali rispetto al LLM di base su diversi benchmark come conoscenza, ragionamento, matematica e codifica. Supera inoltre costantemente altri metodi, tra cui l'unione di istanze e l'unione di pesi, offrendo al contempo una migliore flessibilità e interpretabilità grazie alla progettazione con esperti semantici e routing. Le nostre scoperte evidenziano il ruolo cruciale della modularità e il potenziale dell'auto-miglioramento nel raggiungere sistemi efficienti, scalabili e adattabili.
English
We present Self-MoE, an approach that transforms a monolithic LLM into a
compositional, modular system of self-specialized experts, named MiXSE (MiXture
of Self-specialized Experts). Our approach leverages self-specialization, which
constructs expert modules using self-generated synthetic data, each equipped
with a shared base LLM and incorporating self-optimized routing. This allows
for dynamic and capability-specific handling of various target tasks, enhancing
overall capabilities, without extensive human-labeled data and added
parameters. Our empirical results reveal that specializing LLMs may exhibit
potential trade-offs in performances on non-specialized tasks. On the other
hand, our Self-MoE demonstrates substantial improvements over the base LLM
across diverse benchmarks such as knowledge, reasoning, math, and coding. It
also consistently outperforms other methods, including instance merging and
weight merging, while offering better flexibility and interpretability by
design with semantic experts and routing. Our findings highlight the critical
role of modularity and the potential of self-improvement in achieving
efficient, scalable, and adaptable systems.