ChatPaper.aiChatPaper

MobileLLM : Optimisation des modèles de langage de moins d'un milliard de paramètres pour des cas d'utilisation sur appareils mobiles

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

February 22, 2024
Auteurs: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra
cs.AI

Résumé

Ce document traite du besoin croissant de modèles de langage de grande taille (LLMs) efficaces sur les appareils mobiles, motivé par l'augmentation des coûts du cloud et les préoccupations liées à la latence. Nous nous concentrons sur la conception de LLMs de haute qualité avec moins d'un milliard de paramètres, un choix pratique pour le déploiement mobile. Contrairement à la croyance dominante qui met l'accent sur le rôle crucial des données et de la quantité de paramètres dans la détermination de la qualité du modèle, notre investigation souligne l'importance de l'architecture du modèle pour les LLMs à échelle inférieure au milliard. En exploitant des architectures profondes et étroites, couplées à des mécanismes de partage d'embeddings et d'attention par groupes de requêtes, nous établissons un réseau de base robuste dénommé MobileLLM, qui obtient une amélioration remarquable de 2,7%/4,3% en précision par rapport aux modèles de pointe précédents de 125M/350M. De plus, nous proposons une approche immédiate de partage de poids par blocs sans augmentation de la taille du modèle et avec seulement une surcharge de latence marginale. Les modèles résultants, dénommés MobileLLM-LS, démontrent une amélioration supplémentaire en précision de 0,7%/0,8% par rapport à MobileLLM 125M/350M. Par ailleurs, la famille de modèles MobileLLM montre des améliorations significatives par rapport aux modèles précédents inférieurs au milliard sur les benchmarks de chat, et démontre une précision proche de LLaMA-v2 7B dans les tâches d'appel d'API, mettant en évidence la capacité des petits modèles pour les cas d'utilisation courants sur appareil.
English
This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for mobile deployment. Contrary to prevailing belief emphasizing the pivotal role of data and parameter quantity in determining model quality, our investigation underscores the significance of model architecture for sub-billion scale LLMs. Leveraging deep and thin architectures, coupled with embedding sharing and grouped-query attention mechanisms, we establish a strong baseline network denoted as MobileLLM, which attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M state-of-the-art models. Additionally, we propose an immediate block-wise weight sharing approach with no increase in model size and only marginal latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover, MobileLLM model family shows significant improvements compared to previous sub-billion models on chat benchmarks, and demonstrates close correctness to LLaMA-v2 7B in API calling tasks, highlighting the capability of small models for common on-device use cases.
PDF13113December 15, 2024