MobileLLM: Optimalisatie van Taalmodellen met Minder dan een Miljard Parameters voor Gebruik op Apparaten
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
February 22, 2024
Auteurs: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra
cs.AI
Samenvatting
Dit artikel behandelt de groeiende behoefte aan efficiënte grote taalmodellen (LLM's) op mobiele apparaten, gedreven door stijgende cloudkosten en zorgen over latentie. We richten ons op het ontwerpen van hoogwaardige LLM's met minder dan een miljard parameters, een praktische keuze voor mobiele implementatie. In tegenstelling tot de heersende overtuiging die de cruciale rol van data en parameterhoeveelheid benadrukt bij het bepalen van modelkwaliteit, benadrukt ons onderzoek het belang van modelarchitectuur voor LLM's op sub-miljard schaal. Door gebruik te maken van diepe en smalle architecturen, in combinatie met het delen van embeddings en gegroepeerde-query aandachtmechanismen, stellen we een sterk basisnetwerk op, aangeduid als MobileLLM, dat een opmerkelijke nauwkeurigheidsverbetering van 2,7%/4,3% behaalt ten opzichte van eerdere state-of-the-art modellen van 125M/350M. Daarnaast stellen we een directe bloksgewijze gewichtsdelingsmethode voor zonder toename in modelgrootte en met slechts een marginale latentietoename. De resulterende modellen, aangeduid als MobileLLM-LS, tonen een verdere nauwkeurigheidsverbetering van 0,7%/0,8% ten opzichte van MobileLLM 125M/350M. Bovendien laat de MobileLLM-modelreeks significante verbeteringen zien in vergelijking met eerdere sub-miljard modellen op chatbenchmarks, en toont het een nauwe correctheid ten opzichte van LLaMA-v2 7B in API-aanroeptaken, wat het vermogen van kleine modellen voor veelvoorkomende gebruiksscenario's op apparaten benadrukt.
English
This paper addresses the growing need for efficient large language models
(LLMs) on mobile devices, driven by increasing cloud costs and latency
concerns. We focus on designing top-quality LLMs with fewer than a billion
parameters, a practical choice for mobile deployment. Contrary to prevailing
belief emphasizing the pivotal role of data and parameter quantity in
determining model quality, our investigation underscores the significance of
model architecture for sub-billion scale LLMs. Leveraging deep and thin
architectures, coupled with embedding sharing and grouped-query attention
mechanisms, we establish a strong baseline network denoted as MobileLLM, which
attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M
state-of-the-art models. Additionally, we propose an immediate block-wise
weight sharing approach with no increase in model size and only marginal
latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a
further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover,
MobileLLM model family shows significant improvements compared to previous
sub-billion models on chat benchmarks, and demonstrates close correctness to
LLaMA-v2 7B in API calling tasks, highlighting the capability of small models
for common on-device use cases.