MobileLLM: Otimização de Modelos de Linguagem com Sub-bilhões de Parâmetros para Casos de Uso em Dispositivos Locais
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
February 22, 2024
Autores: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra
cs.AI
Resumo
Este artigo aborda a crescente necessidade de modelos de linguagem de grande escala (LLMs) eficientes em dispositivos móveis, impulsionada pelo aumento dos custos e preocupações com latência na nuvem. Nosso foco é projetar LLMs de alta qualidade com menos de um bilhão de parâmetros, uma escolha prática para implantação em dispositivos móveis. Contrariamente à crença predominante que enfatiza o papel crucial da quantidade de dados e parâmetros na determinação da qualidade do modelo, nossa investigação destaca a importância da arquitetura do modelo para LLMs em escala sub-bilionária. Aproveitando arquiteturas profundas e estreitas, juntamente com o compartilhamento de embeddings e mecanismos de atenção com consultas agrupadas, estabelecemos uma rede de base robusta denominada MobileLLM, que alcança um notável aumento de 2,7%/4,3% na precisão em relação aos modelos state-of-the-art anteriores de 125M/350M. Além disso, propomos uma abordagem imediata de compartilhamento de pesos em blocos, sem aumento no tamanho do modelo e com apenas um pequeno overhead de latência. Os modelos resultantes, denominados MobileLLM-LS, demonstram um aprimoramento adicional de 0,7%/0,8% na precisão em relação ao MobileLLM 125M/350M. Além disso, a família de modelos MobileLLM mostra melhorias significativas em comparação com modelos sub-bilionários anteriores em benchmarks de chat e demonstra uma correção próxima ao LLaMA-v2 7B em tarefas de chamada de API, destacando a capacidade de modelos pequenos para casos de uso comuns em dispositivos.
English
This paper addresses the growing need for efficient large language models
(LLMs) on mobile devices, driven by increasing cloud costs and latency
concerns. We focus on designing top-quality LLMs with fewer than a billion
parameters, a practical choice for mobile deployment. Contrary to prevailing
belief emphasizing the pivotal role of data and parameter quantity in
determining model quality, our investigation underscores the significance of
model architecture for sub-billion scale LLMs. Leveraging deep and thin
architectures, coupled with embedding sharing and grouped-query attention
mechanisms, we establish a strong baseline network denoted as MobileLLM, which
attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M
state-of-the-art models. Additionally, we propose an immediate block-wise
weight sharing approach with no increase in model size and only marginal
latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a
further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover,
MobileLLM model family shows significant improvements compared to previous
sub-billion models on chat benchmarks, and demonstrates close correctness to
LLaMA-v2 7B in API calling tasks, highlighting the capability of small models
for common on-device use cases.