MobileLLM: Optimización de Modelos de Lenguaje con Sub-mil Millones de Parámetros para Casos de Uso en Dispositivos Móviles

Resumen

Este artículo aborda la creciente necesidad de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) eficientes en dispositivos móviles, impulsada por el aumento de los costos en la nube y las preocupaciones sobre la latencia. Nos enfocamos en diseñar LLMs de alta calidad con menos de mil millones de parámetros, una elección práctica para su implementación en dispositivos móviles. Contrario a la creencia predominante que enfatiza el papel crucial de la cantidad de datos y parámetros en la determinación de la calidad del modelo, nuestra investigación subraya la importancia de la arquitectura del modelo para LLMs de escala inferior a mil millones. Aprovechando arquitecturas profundas y delgadas, junto con mecanismos de compartición de embeddings y atención de consultas agrupadas, establecemos una red base sólida denominada MobileLLM, que logra un notable incremento en precisión de 2.7%/4.3% sobre los modelos anteriores de 125M/350M de última generación. Además, proponemos un enfoque inmediato de compartición de pesos por bloques sin aumento en el tamaño del modelo y con solo un ligero incremento en la latencia. Los modelos resultantes, denominados MobileLLM-LS, demuestran una mejora adicional en precisión de 0.7%/0.8% sobre MobileLLM 125M/350M. Asimismo, la familia de modelos MobileLLM muestra mejoras significativas en comparación con modelos anteriores de escala inferior a mil millones en benchmarks de chat, y demuestra una precisión cercana a LLaMA-v2 7B en tareas de llamadas a API, destacando la capacidad de los modelos pequeños para casos de uso comunes en dispositivos.

English

This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for mobile deployment. Contrary to prevailing belief emphasizing the pivotal role of data and parameter quantity in determining model quality, our investigation underscores the significance of model architecture for sub-billion scale LLMs. Leveraging deep and thin architectures, coupled with embedding sharing and grouped-query attention mechanisms, we establish a strong baseline network denoted as MobileLLM, which attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M state-of-the-art models. Additionally, we propose an immediate block-wise weight sharing approach with no increase in model size and only marginal latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover, MobileLLM model family shows significant improvements compared to previous sub-billion models on chat benchmarks, and demonstrates close correctness to LLaMA-v2 7B in API calling tasks, highlighting the capability of small models for common on-device use cases.

MobileLLM: Optimización de Modelos de Lenguaje con Sub-mil Millones de Parámetros para Casos de Uso en Dispositivos Móviles

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Resumen

Support