MobileMoE : Mise à l'échelle du mélange d'experts sur appareil

Résumé

Le Mixture-of-Experts (MoE) est devenu l'architecture de facto pour les modèles de langage à centaines de milliards de paramètres, mais ses avantages à des échelles inférieures au milliard pour le déploiement sur appareil restent largement inexplorés. Pour combler cette lacune, nous présentons MobileMoE, une famille de modèles de langage MoE sur appareil avec des paramètres actifs inférieurs au milliard (0,3-0,9 milliard actifs et 1,3-5,3 milliards au total) qui établissent une nouvelle frontière de Pareto pour les LLM sur appareil. Nous formulons d'abord une loi d'échelle MoE sur appareil qui optimise conjointement l'architecture MoE sous contraintes de mémoire et de calcul mobiles, identifiant un point idéal sur appareil – une parcimonie modérée avec des experts fins et partagés – qui est simultanément optimal en mémoire et en calcul. En nous appuyant sur les architectures dérivées, nous entraînons MobileMoE avec un processus en quatre étapes couvrant le pré-entraînement, l'entraînement intermédiaire, l'ajustement fin sur instructions et l'entraînement tenant compte de la quantification, le tout sur des ensembles de données open source. Sur 14 benchmarks, MobileMoE égalise ou dépasse les principaux LLM denses sur appareil avec 2 à 4 fois moins de FLOPs d'inférence, et égalise ou surpasse le MoE de pointe OLMoE-1B-7B avec jusqu'à 60 % de paramètres en moins. Pour franchir le dernier kilomètre vers le déploiement mobile, nous fournissons la première inférence MoE efficace sur des smartphones grand public avec un profilage complet sur appareil. Avec une mémoire de poids INT4 comparable, MobileMoE-S offre un préremplissage 1,8 à 3,8 fois plus rapide et un décodage 2,2 à 3,4 fois plus rapide que la base dense MobileLLM-Pro.

English

Mixture-of-Experts (MoE) has become the de facto architecture for hundred-billion-parameter language models, yet its advantages at sub-billion scales for on-device deployment remain largely unexplored. To close this gap, we present MobileMoE, a family of on-device MoE language models with sub-billion active parameters (0.3-0.9B active and 1.3-5.3B total) that establish a new Pareto frontier for on-device LLMs. We first formulate an on-device MoE scaling law that jointly optimizes MoE architecture under mobile memory and compute constraints, identifying an on-device sweet spot - moderate sparsity with fine-grained and shared experts - that is simultaneously memory and compute-optimal. Building on the derived architectures, we train MobileMoE with a four-stage recipe covering pre-training, mid-training, instruction fine-tuning, and quantization-aware training, all on open-source datasets. Across 14 benchmarks, MobileMoE matches or exceeds leading on-device dense LLMs with 2-4times fewer inference FLOPs, and matches or surpasses the state-of-the-art MoE OLMoE-1B-7B with up to 60% fewer parameters. To bridge the last mile to mobile deployment, we provide the first efficient MoE inference on commodity smartphones with comprehensive on-device profiling. At comparable INT4 weight memory, MobileMoE-S delivers 1.8-3.8times faster prefill and 2.2-3.4times faster decode than the dense baseline MobileLLM-Pro.