MoE-Mamba: Modelli Efficienti di Spazio degli Stati Selettivi con Miscela di Esperti
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts
January 8, 2024
Autori: Maciej Pióro, Kamil Ciebiera, Krystian Król, Jan Ludziejewski, Sebastian Jaszczur
cs.AI
Abstract
I Modelli a Spazio di Stato (SSM) sono diventati seri contendenti nel campo della modellazione sequenziale, sfidando il dominio dei Transformer. Allo stesso tempo, la Miscela di Esperti (MoE) ha migliorato significativamente i LLM basati su Transformer, inclusi i recenti modelli open-source all'avanguardia. Proponiamo che, per sbloccare il potenziale degli SSM in termini di scalabilità, essi debbano essere combinati con MoE. Dimostriamo questo concetto su Mamba, un recente modello basato su SSM che raggiunge prestazioni notevoli, simili a quelle dei Transformer. Il nostro modello, MoE-Mamba, supera sia Mamba che Transformer-MoE. In particolare, MoE-Mamba raggiunge le stesse prestazioni di Mamba in 2,2 volte meno passi di addestramento, preservando i guadagni di prestazioni in inferenza di Mamba rispetto al Transformer.
English
State Space Models (SSMs) have become serious contenders in the field of
sequential modeling, challenging the dominance of Transformers. At the same
time, Mixture of Experts (MoE) has significantly improved Transformer-based
LLMs, including recent state-of-the-art open-source models. We propose that to
unlock the potential of SSMs for scaling, they should be combined with MoE. We
showcase this on Mamba, a recent SSM-based model that achieves remarkable,
Transformer-like performance. Our model, MoE-Mamba, outperforms both Mamba and
Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba
in 2.2x less training steps while preserving the inference performance gains of
Mamba against the Transformer.