MobileLLM : Optimisation des modèles de langage de moins d'un milliard de paramètres pour des cas d'utilisation sur appareils mobilesMobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
Ce document traite du besoin croissant de modèles de langage de grande taille (LLMs) efficaces sur les appareils mobiles, motivé par l'augmentation des coûts du cloud et les préoccupations liées à la latence. Nous nous concentrons sur la conception de LLMs de haute qualité avec moins d'un milliard de paramètres, un choix pratique pour le déploiement mobile. Contrairement à la croyance dominante qui met l'accent sur le rôle crucial des données et de la quantité de paramètres dans la détermination de la qualité du modèle, notre investigation souligne l'importance de l'architecture du modèle pour les LLMs à échelle inférieure au milliard. En exploitant des architectures profondes et étroites, couplées à des mécanismes de partage d'embeddings et d'attention par groupes de requêtes, nous établissons un réseau de base robuste dénommé MobileLLM, qui obtient une amélioration remarquable de 2,7%/4,3% en précision par rapport aux modèles de pointe précédents de 125M/350M. De plus, nous proposons une approche immédiate de partage de poids par blocs sans augmentation de la taille du modèle et avec seulement une surcharge de latence marginale. Les modèles résultants, dénommés MobileLLM-LS, démontrent une amélioration supplémentaire en précision de 0,7%/0,8% par rapport à MobileLLM 125M/350M. Par ailleurs, la famille de modèles MobileLLM montre des améliorations significatives par rapport aux modèles précédents inférieurs au milliard sur les benchmarks de chat, et démontre une précision proche de LLaMA-v2 7B dans les tâches d'appel d'API, mettant en évidence la capacité des petits modèles pour les cas d'utilisation courants sur appareil.