MobileMoE: Масштабирование смеси экспертов на устройстве

Аннотация

Смесь экспертов (MoE) стала фактической архитектурой для языковых моделей с сотнями миллиардов параметров, однако её преимущества для масштабов менее миллиарда параметров при развёртывании на устройствах остаются в значительной степени неизученными. Для устранения этого пробела мы представляем MobileMoE — семейство MoE-языковых моделей для мобильных устройств с активными параметрами менее миллиарда (0,3–0,9 млрд активных и 1,3–5,3 млрд общих), устанавливающее новую границу Парето для LLM на устройствах. Сначала мы формулируем закон масштабирования MoE для мобильных устройств, который совместно оптимизирует архитектуру MoE с учётом ограничений памяти и вычислений на мобильных устройствах, выявляя оптимальную точку — умеренную разреженность с мелкозернистыми и общими экспертами, одновременно оптимальную по памяти и вычислениям. На основе полученных архитектур мы обучаем MobileMoE с четырёхэтапным рецептом, охватывающим предварительное обучение, промежуточное обучение, дообучение по инструкциям и обучение с учётом квантования, причём все этапы выполняются на наборах данных с открытым исходным кодом. На 14 тестовых наборах MobileMoE сравнивается или превосходит ведущие плотные LLM для мобильных устройств при 2–4-кратном сокращении FLOPs при инференсе, а также сравнивается или превосходит современную MoE-модель OLMoE-1B-7B при сокращении числа параметров до 60 %. Для завершающего этапа внедрения на мобильные устройства мы предоставляем первый эффективный инференс MoE на серийных смартфонах с всесторонним профилированием на устройстве. При сопоставимом объёме весов в формате INT4 MobileMoE-S демонстрирует ускорение префилла в 1,8–3,8 раза и декодирования в 2,2–3,4 раза по сравнению с плотным базовым решением MobileLLM-Pro.

English

Mixture-of-Experts (MoE) has become the de facto architecture for hundred-billion-parameter language models, yet its advantages at sub-billion scales for on-device deployment remain largely unexplored. To close this gap, we present MobileMoE, a family of on-device MoE language models with sub-billion active parameters (0.3-0.9B active and 1.3-5.3B total) that establish a new Pareto frontier for on-device LLMs. We first formulate an on-device MoE scaling law that jointly optimizes MoE architecture under mobile memory and compute constraints, identifying an on-device sweet spot - moderate sparsity with fine-grained and shared experts - that is simultaneously memory and compute-optimal. Building on the derived architectures, we train MobileMoE with a four-stage recipe covering pre-training, mid-training, instruction fine-tuning, and quantization-aware training, all on open-source datasets. Across 14 benchmarks, MobileMoE matches or exceeds leading on-device dense LLMs with 2-4times fewer inference FLOPs, and matches or surpasses the state-of-the-art MoE OLMoE-1B-7B with up to 60% fewer parameters. To bridge the last mile to mobile deployment, we provide the first efficient MoE inference on commodity smartphones with comprehensive on-device profiling. At comparable INT4 weight memory, MobileMoE-S delivers 1.8-3.8times faster prefill and 2.2-3.4times faster decode than the dense baseline MobileLLM-Pro.