MobiLlama: Verso un GPT completamente trasparente, accurato e leggero

Abstract

"Più grande è meglio" è stata la tendenza predominante nel recente sviluppo dei Large Language Models (LLM). Tuttavia, i LLM non si adattano bene a scenari che richiedono elaborazione su dispositivo, efficienza energetica, basso consumo di memoria e rapidità di risposta. Questi requisiti sono cruciali per la privacy, la sicurezza e un dispiegamento sostenibile. Questo articolo esplora il paradigma "meno è più" affrontando la sfida di progettare Small Language Models (SLM) accurati ma efficienti per dispositivi con risorse limitate. Il nostro contributo principale è l'introduzione di uno SLM open-source accurato e completamente trasparente da 0,5 miliardi di parametri (0,5B), chiamato MobiLlama, che risponde alle esigenze specifiche del computing con risorse limitate, con un'enfasi su prestazioni migliorate e ridotte richieste di risorse. MobiLlama è un design di SLM che parte da un modello più grande e applica uno schema attento di condivisione dei parametri per ridurre sia i costi di pre-addestramento che quelli di dispiegamento. Il nostro lavoro si propone non solo di colmare il divario negli SLM open-source, ma anche di garantire la massima trasparenza, rendendo disponibile l'intera pipeline di dati di addestramento, il codice di addestramento, i pesi del modello e oltre 300 checkpoint insieme ai codici di valutazione all'indirizzo: https://github.com/mbzuai-oryx/MobiLlama.

English

"Bigger the better" has been the predominant trend in recent Large Language Models (LLMs) development. However, LLMs do not suit well for scenarios that require on-device processing, energy efficiency, low memory footprint, and response efficiency. These requisites are crucial for privacy, security, and sustainable deployment. This paper explores the "less is more" paradigm by addressing the challenge of designing accurate yet efficient Small Language Models (SLMs) for resource constrained devices. Our primary contribution is the introduction of an accurate and fully transparent open-source 0.5 billion (0.5B) parameter SLM, named MobiLlama, catering to the specific needs of resource-constrained computing with an emphasis on enhanced performance with reduced resource demands. MobiLlama is a SLM design that initiates from a larger model and applies a careful parameter sharing scheme to reduce both the pre-training and the deployment cost. Our work strives to not only bridge the gap in open-source SLMs but also ensures full transparency, where complete training data pipeline, training code, model weights, and over 300 checkpoints along with evaluation codes is available at : https://github.com/mbzuai-oryx/MobiLlama.

MobiLlama: Verso un GPT completamente trasparente, accurato e leggero

MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

Abstract

Support