MoE-Mamba : Modèles efficaces d'espaces d'états sélectifs avec mélange d'experts
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts
January 8, 2024
Auteurs: Maciej Pióro, Kamil Ciebiera, Krystian Król, Jan Ludziejewski, Sebastian Jaszczur
cs.AI
Résumé
Les modèles à espace d'états (State Space Models, SSMs) sont devenus des concurrents sérieux dans le domaine de la modélisation séquentielle, remettant en question la domination des Transformers. Parallèlement, le mélange d'experts (Mixture of Experts, MoE) a considérablement amélioré les modèles de langage basés sur les Transformers, y compris les modèles open-source récents les plus performants. Nous proposons que pour libérer le potentiel des SSMs en termes de scalabilité, ils devraient être combinés avec le MoE. Nous illustrons cela avec Mamba, un modèle récent basé sur les SSMs qui atteint des performances remarquables, similaires à celles des Transformers. Notre modèle, MoE-Mamba, surpasse à la fois Mamba et Transformer-MoE. En particulier, MoE-Mamba atteint les mêmes performances que Mamba en 2,2 fois moins d'étapes d'entraînement tout en conservant les gains de performance en inférence de Mamba par rapport au Transformer.
English
State Space Models (SSMs) have become serious contenders in the field of
sequential modeling, challenging the dominance of Transformers. At the same
time, Mixture of Experts (MoE) has significantly improved Transformer-based
LLMs, including recent state-of-the-art open-source models. We propose that to
unlock the potential of SSMs for scaling, they should be combined with MoE. We
showcase this on Mamba, a recent SSM-based model that achieves remarkable,
Transformer-like performance. Our model, MoE-Mamba, outperforms both Mamba and
Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba
in 2.2x less training steps while preserving the inference performance gains of
Mamba against the Transformer.