ChatPaper.aiChatPaper

MobileLLM: Optimierung von Sprachmodellen mit weniger als einer Milliarde Parametern für On-Device-Anwendungsfälle

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

February 22, 2024
Autoren: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra
cs.AI

Zusammenfassung

Dieses Papier befasst sich mit dem wachsenden Bedarf an effizienten großen Sprachmodellen (LLMs) auf mobilen Geräten, der durch steigende Cloud-Kosten und Latenzprobleme vorangetrieben wird. Wir konzentrieren uns auf die Entwicklung hochwertiger LLMs mit weniger als einer Milliarde Parametern, einer praktischen Wahl für den mobilen Einsatz. Im Gegensatz zur vorherrschenden Ansicht, die die entscheidende Rolle von Daten und Parameteranzahl für die Modellqualität betont, unterstreicht unsere Untersuchung die Bedeutung der Modellarchitektur für LLMs im Sub-Milliarden-Maßstab. Durch die Nutzung tiefer und schmaler Architekturen in Kombination mit Embedding-Sharing und gruppierten Abfrage-Aufmerksamkeitsmechanismen etablieren wir ein robustes Basisnetzwerk, das als MobileLLM bezeichnet wird und eine bemerkenswerte Genauigkeitssteigerung von 2,7 %/4,3 % gegenüber den vorherigen 125M/350M State-of-the-Art-Modellen erzielt. Zusätzlich schlagen wir einen sofortigen blockweisen Gewichteteilungsansatz vor, der die Modellgröße nicht erhöht und nur einen geringen Latenzaufwand verursacht. Die daraus resultierenden Modelle, bezeichnet als MobileLLM-LS, zeigen eine weitere Genauigkeitsverbesserung von 0,7 %/0,8 % gegenüber MobileLLM 125M/350M. Darüber hinaus zeigt die MobileLLM-Modellfamilie im Vergleich zu früheren Sub-Milliarden-Modellen signifikante Verbesserungen bei Chat-Benchmarks und demonstriert eine nahezu korrekte Leistung im Vergleich zu LLaMA-v2 7B bei API-Aufrufaufgaben, was die Fähigkeit kleiner Modelle für gängige On-Device-Anwendungsfälle unterstreicht.
English
This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for mobile deployment. Contrary to prevailing belief emphasizing the pivotal role of data and parameter quantity in determining model quality, our investigation underscores the significance of model architecture for sub-billion scale LLMs. Leveraging deep and thin architectures, coupled with embedding sharing and grouped-query attention mechanisms, we establish a strong baseline network denoted as MobileLLM, which attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M state-of-the-art models. Additionally, we propose an immediate block-wise weight sharing approach with no increase in model size and only marginal latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover, MobileLLM model family shows significant improvements compared to previous sub-billion models on chat benchmarks, and demonstrates close correctness to LLaMA-v2 7B in API calling tasks, highlighting the capability of small models for common on-device use cases.
PDF13113December 15, 2024