MobileMoE: Escalonamento de Mistura de Especialistas em Dispositivo

Resumo

Mistura de Especialistas (MoE) tornou-se a arquitetura de fato para modelos de linguagem com centenas de bilhões de parâmetros, porém suas vantagens em escalas sub-bilionárias para implantação em dispositivos permanecem amplamente inexploradas. Para preencher essa lacuna, apresentamos o MobileMoE, uma família de modelos de linguagem MoE para dispositivos com parâmetros ativos sub-bilionários (0,3-0,9B ativos e 1,3-5,3B totais) que estabelece uma nova fronteira de Pareto para LLMs em dispositivos. Primeiramente, formulamos uma lei de escalonamento MoE para dispositivos que otimiza conjuntamente a arquitetura MoE sob restrições de memória e computação móveis, identificando um ponto ideal para dispositivos — esparsidade moderada com especialistas refinados e compartilhados — que é simultaneamente ótimo em memória e computação. Com base nas arquiteturas derivadas, treinamos o MobileMoE com um roteiro de quatro etapas que abrange pré-treinamento, treinamento intermediário, ajuste fino por instruções e treinamento ciente de quantização, todos em conjuntos de dados de código aberto. Em 14 benchmarks, o MobileMoE iguala ou supera os principais LLMs densos para dispositivos com 2 a 4 vezes menos FLOPs de inferência, e iguala ou supera o estado da arte MoE OLMoE-1B-7B com até 60% menos parâmetros. Para preencher a última milha rumo à implantação em dispositivos móveis, fornecemos a primeira inferência MoE eficiente em smartphones comerciais com perfilamento abrangente em dispositivos. Com memória INT4 comparável para pesos, o MobileMoE-S oferece preenchimento 1,8 a 3,8 vezes mais rápido e decodificação 2,2 a 3,4 vezes mais rápida do que a linha de base densa MobileLLM-Pro.

English

Mixture-of-Experts (MoE) has become the de facto architecture for hundred-billion-parameter language models, yet its advantages at sub-billion scales for on-device deployment remain largely unexplored. To close this gap, we present MobileMoE, a family of on-device MoE language models with sub-billion active parameters (0.3-0.9B active and 1.3-5.3B total) that establish a new Pareto frontier for on-device LLMs. We first formulate an on-device MoE scaling law that jointly optimizes MoE architecture under mobile memory and compute constraints, identifying an on-device sweet spot - moderate sparsity with fine-grained and shared experts - that is simultaneously memory and compute-optimal. Building on the derived architectures, we train MobileMoE with a four-stage recipe covering pre-training, mid-training, instruction fine-tuning, and quantization-aware training, all on open-source datasets. Across 14 benchmarks, MobileMoE matches or exceeds leading on-device dense LLMs with 2-4times fewer inference FLOPs, and matches or surpasses the state-of-the-art MoE OLMoE-1B-7B with up to 60% fewer parameters. To bridge the last mile to mobile deployment, we provide the first efficient MoE inference on commodity smartphones with comprehensive on-device profiling. At comparable INT4 weight memory, MobileMoE-S delivers 1.8-3.8times faster prefill and 2.2-3.4times faster decode than the dense baseline MobileLLM-Pro.