MobileLLM: Optimización de Modelos de Lenguaje con Sub-mil Millones de Parámetros para Casos de Uso en Dispositivos Móviles
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
February 22, 2024
Autores: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra
cs.AI
Resumen
Este artículo aborda la creciente necesidad de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) eficientes en dispositivos móviles, impulsada por el aumento de los costos en la nube y las preocupaciones sobre la latencia. Nos enfocamos en diseñar LLMs de alta calidad con menos de mil millones de parámetros, una elección práctica para su implementación en dispositivos móviles. Contrario a la creencia predominante que enfatiza el papel crucial de la cantidad de datos y parámetros en la determinación de la calidad del modelo, nuestra investigación subraya la importancia de la arquitectura del modelo para LLMs de escala inferior a mil millones. Aprovechando arquitecturas profundas y delgadas, junto con mecanismos de compartición de embeddings y atención de consultas agrupadas, establecemos una red base sólida denominada MobileLLM, que logra un notable incremento en precisión de 2.7%/4.3% sobre los modelos anteriores de 125M/350M de última generación. Además, proponemos un enfoque inmediato de compartición de pesos por bloques sin aumento en el tamaño del modelo y con solo un ligero incremento en la latencia. Los modelos resultantes, denominados MobileLLM-LS, demuestran una mejora adicional en precisión de 0.7%/0.8% sobre MobileLLM 125M/350M. Asimismo, la familia de modelos MobileLLM muestra mejoras significativas en comparación con modelos anteriores de escala inferior a mil millones en benchmarks de chat, y demuestra una precisión cercana a LLaMA-v2 7B en tareas de llamadas a API, destacando la capacidad de los modelos pequeños para casos de uso comunes en dispositivos.
English
This paper addresses the growing need for efficient large language models
(LLMs) on mobile devices, driven by increasing cloud costs and latency
concerns. We focus on designing top-quality LLMs with fewer than a billion
parameters, a practical choice for mobile deployment. Contrary to prevailing
belief emphasizing the pivotal role of data and parameter quantity in
determining model quality, our investigation underscores the significance of
model architecture for sub-billion scale LLMs. Leveraging deep and thin
architectures, coupled with embedding sharing and grouped-query attention
mechanisms, we establish a strong baseline network denoted as MobileLLM, which
attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M
state-of-the-art models. Additionally, we propose an immediate block-wise
weight sharing approach with no increase in model size and only marginal
latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a
further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover,
MobileLLM model family shows significant improvements compared to previous
sub-billion models on chat benchmarks, and demonstrates close correctness to
LLaMA-v2 7B in API calling tasks, highlighting the capability of small models
for common on-device use cases.