ChatPaper.aiChatPaper

MoE-Mamba: Efficiënte Selectieve State Space Modellen met Mixture of Experts

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

January 8, 2024
Auteurs: Maciej Pióro, Kamil Ciebiera, Krystian Król, Jan Ludziejewski, Sebastian Jaszczur
cs.AI

Samenvatting

State Space Models (SSMs) zijn serieuze concurrenten geworden op het gebied van sequentiële modellering en dagen de dominantie van Transformers uit. Tegelijkertijd heeft Mixture of Experts (MoE) Transformer-gebaseerde LLM's aanzienlijk verbeterd, inclusief recente state-of-the-art open-source modellen. Wij stellen voor dat het potentieel van SSMs voor schaalbaarheid kan worden ontsloten door ze te combineren met MoE. We demonstreren dit met Mamba, een recent SSM-gebaseerd model dat opmerkelijke, Transformer-achtige prestaties behaalt. Ons model, MoE-Mamba, overtreft zowel Mamba als Transformer-MoE. In het bijzonder bereikt MoE-Mamba dezelfde prestaties als Mamba in 2,2x minder trainingsstappen, terwijl de inferentieprestatievoordelen van Mamba ten opzichte van de Transformer behouden blijven.
English
State Space Models (SSMs) have become serious contenders in the field of sequential modeling, challenging the dominance of Transformers. At the same time, Mixture of Experts (MoE) has significantly improved Transformer-based LLMs, including recent state-of-the-art open-source models. We propose that to unlock the potential of SSMs for scaling, they should be combined with MoE. We showcase this on Mamba, a recent SSM-based model that achieves remarkable, Transformer-like performance. Our model, MoE-Mamba, outperforms both Mamba and Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba in 2.2x less training steps while preserving the inference performance gains of Mamba against the Transformer.
PDF746February 9, 2026