MobileLLM: Optimierung von Sprachmodellen mit weniger als einer Milliarde Parametern für On-Device-AnwendungsfälleMobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
Dieses Papier befasst sich mit dem wachsenden Bedarf an effizienten großen Sprachmodellen (LLMs) auf mobilen Geräten, der durch steigende Cloud-Kosten und Latenzprobleme vorangetrieben wird. Wir konzentrieren uns auf die Entwicklung hochwertiger LLMs mit weniger als einer Milliarde Parametern, einer praktischen Wahl für den mobilen Einsatz. Im Gegensatz zur vorherrschenden Ansicht, die die entscheidende Rolle von Daten und Parameteranzahl für die Modellqualität betont, unterstreicht unsere Untersuchung die Bedeutung der Modellarchitektur für LLMs im Sub-Milliarden-Maßstab. Durch die Nutzung tiefer und schmaler Architekturen in Kombination mit Embedding-Sharing und gruppierten Abfrage-Aufmerksamkeitsmechanismen etablieren wir ein robustes Basisnetzwerk, das als MobileLLM bezeichnet wird und eine bemerkenswerte Genauigkeitssteigerung von 2,7 %/4,3 % gegenüber den vorherigen 125M/350M State-of-the-Art-Modellen erzielt. Zusätzlich schlagen wir einen sofortigen blockweisen Gewichteteilungsansatz vor, der die Modellgröße nicht erhöht und nur einen geringen Latenzaufwand verursacht. Die daraus resultierenden Modelle, bezeichnet als MobileLLM-LS, zeigen eine weitere Genauigkeitsverbesserung von 0,7 %/0,8 % gegenüber MobileLLM 125M/350M. Darüber hinaus zeigt die MobileLLM-Modellfamilie im Vergleich zu früheren Sub-Milliarden-Modellen signifikante Verbesserungen bei Chat-Benchmarks und demonstriert eine nahezu korrekte Leistung im Vergleich zu LLaMA-v2 7B bei API-Aufrufaufgaben, was die Fähigkeit kleiner Modelle für gängige On-Device-Anwendungsfälle unterstreicht.