MobileMoE: Escalando la Mezcla de Expertos en el Dispositivo

Resumen

Los modelos de Mezcla de Expertos (MoE, por sus siglas en inglés) se han convertido en la arquitectura por excelencia para modelos de lenguaje con cien mil millones de parámetros; sin embargo, sus ventajas a escalas inferiores a mil millones para despliegue en dispositivos siguen siendo en gran medida inexploradas. Para cerrar esta brecha, presentamos MobileMoE, una familia de modelos de lenguaje MoE para dispositivos con menos de mil millones de parámetros activos (0.3-0.9 mil millones activos y 1.3-5.3 mil millones en total) que establece una nueva frontera de Pareto para LLMs en dispositivos. Primero formulamos una ley de escalado MoE para dispositivos que optimiza conjuntamente la arquitectura MoE bajo restricciones de memoria y cómputo móvil, identificando un punto óptimo para dispositivos —dispersión moderada con expertos detallados y compartidos— que es simultáneamente óptimo en memoria y cómputo. Basándonos en las arquitecturas derivadas, entrenamos MobileMoE con un proceso de cuatro etapas que abarca pre-entrenamiento, entrenamiento intermedio, ajuste fino por instrucciones y entrenamiento consciente de cuantización, todo con conjuntos de datos de código abierto. En 14 puntos de referencia, MobileMoE iguala o supera a los principales LLMs densos para dispositivos con 2 a 4 veces menos FLOPs de inferencia, y iguala o supera al MoE de última generación OLMoE-1B-7B con hasta un 60 % menos de parámetros. Para salvar la última milla hacia el despliegue en móviles, proporcionamos la primera inferencia MoE eficiente en teléfonos inteligentes comerciales con un perfilado exhaustivo en dispositivos. Con una memoria INT4 comparable, MobileMoE-S ofrece una precarga de 1.8 a 3.8 veces más rápida y una decodificación de 2.2 a 3.4 veces más rápida que la línea base densa MobileLLM-Pro.

English

Mixture-of-Experts (MoE) has become the de facto architecture for hundred-billion-parameter language models, yet its advantages at sub-billion scales for on-device deployment remain largely unexplored. To close this gap, we present MobileMoE, a family of on-device MoE language models with sub-billion active parameters (0.3-0.9B active and 1.3-5.3B total) that establish a new Pareto frontier for on-device LLMs. We first formulate an on-device MoE scaling law that jointly optimizes MoE architecture under mobile memory and compute constraints, identifying an on-device sweet spot - moderate sparsity with fine-grained and shared experts - that is simultaneously memory and compute-optimal. Building on the derived architectures, we train MobileMoE with a four-stage recipe covering pre-training, mid-training, instruction fine-tuning, and quantization-aware training, all on open-source datasets. Across 14 benchmarks, MobileMoE matches or exceeds leading on-device dense LLMs with 2-4times fewer inference FLOPs, and matches or surpasses the state-of-the-art MoE OLMoE-1B-7B with up to 60% fewer parameters. To bridge the last mile to mobile deployment, we provide the first efficient MoE inference on commodity smartphones with comprehensive on-device profiling. At comparable INT4 weight memory, MobileMoE-S delivers 1.8-3.8times faster prefill and 2.2-3.4times faster decode than the dense baseline MobileLLM-Pro.