MobileLLM : Optimisation des modèles de langage de moins d'un milliard de paramètres pour des cas d'utilisation sur appareils mobiles
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
February 22, 2024
Auteurs: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra
cs.AI
Résumé
Ce document traite du besoin croissant de modèles de langage de grande taille (LLMs) efficaces sur les appareils mobiles, motivé par l'augmentation des coûts du cloud et les préoccupations liées à la latence. Nous nous concentrons sur la conception de LLMs de haute qualité avec moins d'un milliard de paramètres, un choix pratique pour le déploiement mobile. Contrairement à la croyance dominante qui met l'accent sur le rôle crucial des données et de la quantité de paramètres dans la détermination de la qualité du modèle, notre investigation souligne l'importance de l'architecture du modèle pour les LLMs à échelle inférieure au milliard. En exploitant des architectures profondes et étroites, couplées à des mécanismes de partage d'embeddings et d'attention par groupes de requêtes, nous établissons un réseau de base robuste dénommé MobileLLM, qui obtient une amélioration remarquable de 2,7%/4,3% en précision par rapport aux modèles de pointe précédents de 125M/350M. De plus, nous proposons une approche immédiate de partage de poids par blocs sans augmentation de la taille du modèle et avec seulement une surcharge de latence marginale. Les modèles résultants, dénommés MobileLLM-LS, démontrent une amélioration supplémentaire en précision de 0,7%/0,8% par rapport à MobileLLM 125M/350M. Par ailleurs, la famille de modèles MobileLLM montre des améliorations significatives par rapport aux modèles précédents inférieurs au milliard sur les benchmarks de chat, et démontre une précision proche de LLaMA-v2 7B dans les tâches d'appel d'API, mettant en évidence la capacité des petits modèles pour les cas d'utilisation courants sur appareil.
English
This paper addresses the growing need for efficient large language models
(LLMs) on mobile devices, driven by increasing cloud costs and latency
concerns. We focus on designing top-quality LLMs with fewer than a billion
parameters, a practical choice for mobile deployment. Contrary to prevailing
belief emphasizing the pivotal role of data and parameter quantity in
determining model quality, our investigation underscores the significance of
model architecture for sub-billion scale LLMs. Leveraging deep and thin
architectures, coupled with embedding sharing and grouped-query attention
mechanisms, we establish a strong baseline network denoted as MobileLLM, which
attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M
state-of-the-art models. Additionally, we propose an immediate block-wise
weight sharing approach with no increase in model size and only marginal
latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a
further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover,
MobileLLM model family shows significant improvements compared to previous
sub-billion models on chat benchmarks, and demonstrates close correctness to
LLaMA-v2 7B in API calling tasks, highlighting the capability of small models
for common on-device use cases.