MobiLlama: Rumo a um GPT Totalmente Transparente, Preciso e Leve
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT
February 26, 2024
Autores: Omkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan
cs.AI
Resumo
"Quanto maior, melhor" tem sido a tendência predominante no desenvolvimento recente de Modelos de Linguagem de Grande Escala (LLMs). No entanto, os LLMs não se adequam bem a cenários que exigem processamento local, eficiência energética, baixa utilização de memória e eficiência de resposta. Esses requisitos são cruciais para privacidade, segurança e implantação sustentável. Este artigo explora o paradigma "menos é mais" ao abordar o desafio de projetar Modelos de Linguagem Pequenos (SLMs) precisos e eficientes para dispositivos com recursos limitados. Nossa principal contribuição é a introdução de um SLM de código aberto, totalmente transparente e preciso, com 0,5 bilhão (0,5B) de parâmetros, chamado MobiLlama, que atende às necessidades específicas de computação com recursos limitados, com ênfase no desempenho aprimorado com demandas reduzidas de recursos. O MobiLlama é um design de SLM que parte de um modelo maior e aplica um esquema cuidadoso de compartilhamento de parâmetros para reduzir tanto o custo de pré-treinamento quanto o de implantação. Nosso trabalho busca não apenas preencher a lacuna em SLMs de código aberto, mas também garantir total transparência, onde o pipeline completo de dados de treinamento, código de treinamento, pesos do modelo e mais de 300 checkpoints, juntamente com códigos de avaliação, estão disponíveis em: https://github.com/mbzuai-oryx/MobiLlama.
English
"Bigger the better" has been the predominant trend in recent Large Language
Models (LLMs) development. However, LLMs do not suit well for scenarios that
require on-device processing, energy efficiency, low memory footprint, and
response efficiency. These requisites are crucial for privacy, security, and
sustainable deployment. This paper explores the "less is more" paradigm by
addressing the challenge of designing accurate yet efficient Small Language
Models (SLMs) for resource constrained devices. Our primary contribution is the
introduction of an accurate and fully transparent open-source 0.5 billion
(0.5B) parameter SLM, named MobiLlama, catering to the specific needs of
resource-constrained computing with an emphasis on enhanced performance with
reduced resource demands. MobiLlama is a SLM design that initiates from a
larger model and applies a careful parameter sharing scheme to reduce both the
pre-training and the deployment cost. Our work strives to not only bridge the
gap in open-source SLMs but also ensures full transparency, where complete
training data pipeline, training code, model weights, and over 300 checkpoints
along with evaluation codes is available at :
https://github.com/mbzuai-oryx/MobiLlama.