MobileMoE: Skalierung der geräteinternen Expertenmischung

Zusammenfassung

Mixture-of-Experts (MoE) hat sich zur De-facto-Architektur für Sprachmodelle mit hundert Milliarden Parametern entwickelt, doch ihre Vorteile im Sub-Milliarden-Bereich für den Einsatz auf dem Gerät sind noch weitgehend unerforscht. Um diese Lücke zu schließen, präsentieren wir MobileMoE, eine Familie von gerätebasierten MoE-Sprachmodellen mit unter einer Milliarde aktiven Parametern (0,3–0,9 Mrd. aktiv und 1,3–5,3 Mrd. insgesamt), die eine neue Pareto-Front für On-Device-LLMs etabliert. Zunächst formulieren wir ein On-Device-MoE-Skalierungsgesetz, das die MoE-Architektur unter den Speicher- und Rechenbeschränkungen mobiler Geräte gemeinsam optimiert. Dabei identifizieren wir einen Sweet Spot für den mobilen Einsatz – moderate Sparsität mit feinkörnigen und gemeinsam genutzten Experten – der gleichzeitig speicher- und rechenoptimal ist. Aufbauend auf den abgeleiteten Architekturen trainieren wir MobileMoE mit einem Vier-Stufen-Rezept, das Pre-Training, Mid-Training, Instruction Fine-Tuning und quantisierungsbewusstes Training umfasst – alles auf Open-Source-Datensätzen. In 14 Benchmarks erreicht oder übertrifft MobileMoE führende dichte On-Device-LLMs bei 2- bis 4-mal weniger Inferenz-FLOPs und erreicht oder übertrifft den aktuellen MoE-Standard OLMoE-1B-7B mit bis zu 60 % weniger Parametern. Um die letzte Meile zur mobilen Bereitstellung zu überbrücken, liefern wir die erste effiziente MoE-Inferenz auf handelsüblichen Smartphones mit umfassendem On-Device-Profiling. Bei vergleichbarem INT4-Gewichtsspeicher liefert MobileMoE-S einen 1,8- bis 3,8-mal schnelleren Prefill und einen 2,2- bis 3,4-mal schnelleren Decode als die dichte Baseline MobileLLM-Pro.

English

Mixture-of-Experts (MoE) has become the de facto architecture for hundred-billion-parameter language models, yet its advantages at sub-billion scales for on-device deployment remain largely unexplored. To close this gap, we present MobileMoE, a family of on-device MoE language models with sub-billion active parameters (0.3-0.9B active and 1.3-5.3B total) that establish a new Pareto frontier for on-device LLMs. We first formulate an on-device MoE scaling law that jointly optimizes MoE architecture under mobile memory and compute constraints, identifying an on-device sweet spot - moderate sparsity with fine-grained and shared experts - that is simultaneously memory and compute-optimal. Building on the derived architectures, we train MobileMoE with a four-stage recipe covering pre-training, mid-training, instruction fine-tuning, and quantization-aware training, all on open-source datasets. Across 14 benchmarks, MobileMoE matches or exceeds leading on-device dense LLMs with 2-4times fewer inference FLOPs, and matches or surpasses the state-of-the-art MoE OLMoE-1B-7B with up to 60% fewer parameters. To bridge the last mile to mobile deployment, we provide the first efficient MoE inference on commodity smartphones with comprehensive on-device profiling. At comparable INT4 weight memory, MobileMoE-S delivers 1.8-3.8times faster prefill and 2.2-3.4times faster decode than the dense baseline MobileLLM-Pro.