MoE-Mamba: Effiziente selektive State-Space-Modelle mit Mixture of Experts
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts
January 8, 2024
Autoren: Maciej Pióro, Kamil Ciebiera, Krystian Król, Jan Ludziejewski, Sebastian Jaszczur
cs.AI
Zusammenfassung
State-Space-Modelle (SSMs) haben sich zu ernsthaften Konkurrenten im Bereich der sequenziellen Modellierung entwickelt und stellen die Dominanz von Transformern in Frage. Gleichzeitig hat Mixture of Experts (MoE) Transformer-basierte LLMs, einschließlich aktueller Open-Source-Modelle auf dem neuesten Stand der Technik, erheblich verbessert. Wir schlagen vor, dass SSMs mit MoE kombiniert werden sollten, um ihr Potenzial für die Skalierung zu erschließen. Wir demonstrieren dies anhand von Mamba, einem kürzlich entwickelten SSM-basierten Modell, das bemerkenswerte, Transformer-ähnliche Leistungen erzielt. Unser Modell, MoE-Mamba, übertrifft sowohl Mamba als auch Transformer-MoE. Insbesondere erreicht MoE-Mamba die gleiche Leistung wie Mamba in 2,2-mal weniger Trainingsschritten, während die Inferenzleistungsvorteile von Mamba gegenüber dem Transformer erhalten bleiben.
English
State Space Models (SSMs) have become serious contenders in the field of
sequential modeling, challenging the dominance of Transformers. At the same
time, Mixture of Experts (MoE) has significantly improved Transformer-based
LLMs, including recent state-of-the-art open-source models. We propose that to
unlock the potential of SSMs for scaling, they should be combined with MoE. We
showcase this on Mamba, a recent SSM-based model that achieves remarkable,
Transformer-like performance. Our model, MoE-Mamba, outperforms both Mamba and
Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba
in 2.2x less training steps while preserving the inference performance gains of
Mamba against the Transformer.