MobileLLM: Optimización de Modelos de Lenguaje con Sub-mil Millones de Parámetros para Casos de Uso en Dispositivos MóvilesMobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
Este artículo aborda la creciente necesidad de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) eficientes en dispositivos móviles, impulsada por el aumento de los costos en la nube y las preocupaciones sobre la latencia. Nos enfocamos en diseñar LLMs de alta calidad con menos de mil millones de parámetros, una elección práctica para su implementación en dispositivos móviles. Contrario a la creencia predominante que enfatiza el papel crucial de la cantidad de datos y parámetros en la determinación de la calidad del modelo, nuestra investigación subraya la importancia de la arquitectura del modelo para LLMs de escala inferior a mil millones. Aprovechando arquitecturas profundas y delgadas, junto con mecanismos de compartición de embeddings y atención de consultas agrupadas, establecemos una red base sólida denominada MobileLLM, que logra un notable incremento en precisión de 2.7%/4.3% sobre los modelos anteriores de 125M/350M de última generación. Además, proponemos un enfoque inmediato de compartición de pesos por bloques sin aumento en el tamaño del modelo y con solo un ligero incremento en la latencia. Los modelos resultantes, denominados MobileLLM-LS, demuestran una mejora adicional en precisión de 0.7%/0.8% sobre MobileLLM 125M/350M. Asimismo, la familia de modelos MobileLLM muestra mejoras significativas en comparación con modelos anteriores de escala inferior a mil millones en benchmarks de chat, y demuestra una precisión cercana a LLaMA-v2 7B en tareas de llamadas a API, destacando la capacidad de los modelos pequeños para casos de uso comunes en dispositivos.