MoE-Mamba: Effiziente selektive State-Space-Modelle mit Mixture of Experts

papers.abstract

State-Space-Modelle (SSMs) haben sich zu ernsthaften Konkurrenten im Bereich der sequenziellen Modellierung entwickelt und stellen die Dominanz von Transformern in Frage. Gleichzeitig hat Mixture of Experts (MoE) Transformer-basierte LLMs, einschließlich aktueller Open-Source-Modelle auf dem neuesten Stand der Technik, erheblich verbessert. Wir schlagen vor, dass SSMs mit MoE kombiniert werden sollten, um ihr Potenzial für die Skalierung zu erschließen. Wir demonstrieren dies anhand von Mamba, einem kürzlich entwickelten SSM-basierten Modell, das bemerkenswerte, Transformer-ähnliche Leistungen erzielt. Unser Modell, MoE-Mamba, übertrifft sowohl Mamba als auch Transformer-MoE. Insbesondere erreicht MoE-Mamba die gleiche Leistung wie Mamba in 2,2-mal weniger Trainingsschritten, während die Inferenzleistungsvorteile von Mamba gegenüber dem Transformer erhalten bleiben.

English

State Space Models (SSMs) have become serious contenders in the field of sequential modeling, challenging the dominance of Transformers. At the same time, Mixture of Experts (MoE) has significantly improved Transformer-based LLMs, including recent state-of-the-art open-source models. We propose that to unlock the potential of SSMs for scaling, they should be combined with MoE. We showcase this on Mamba, a recent SSM-based model that achieves remarkable, Transformer-like performance. Our model, MoE-Mamba, outperforms both Mamba and Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba in 2.2x less training steps while preserving the inference performance gains of Mamba against the Transformer.

MoE-Mamba: Effiziente selektive State-Space-Modelle mit Mixture of Experts

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

papers.abstract

Support