MobileLLM: Ottimizzazione di Modelli Linguistici con Meno di un Miliardo di Parametri per Casi d'Uso su Dispositivi Mobili

Abstract

Questo articolo affronta la crescente necessità di modelli linguistici di grandi dimensioni (LLM) efficienti su dispositivi mobili, spinta dall'aumento dei costi del cloud e dalle preoccupazioni relative alla latenza. Ci concentriamo sulla progettazione di LLM di alta qualità con meno di un miliardo di parametri, una scelta pratica per il deployment su dispositivi mobili. Contrariamente alla convinzione prevalente che enfatizza il ruolo cruciale dei dati e della quantità di parametri nel determinare la qualità del modello, la nostra indagine sottolinea l'importanza dell'architettura del modello per LLM di scala inferiore al miliardo. Sfruttando architetture profonde e sottili, insieme alla condivisione degli embedding e ai meccanismi di attenzione a query raggruppate, stabiliamo una solida rete di base denominata MobileLLM, che ottiene un notevole incremento di accuratezza del 2,7%/4,3% rispetto ai precedenti modelli all'avanguardia da 125M/350M. Inoltre, proponiamo un approccio immediato di condivisione dei pesi a blocchi senza aumento delle dimensioni del modello e con solo un marginale sovraccarico di latenza. I modelli risultanti, denominati MobileLLM-LS, dimostrano un ulteriore miglioramento dell'accuratezza dello 0,7%/0,8% rispetto a MobileLLM 125M/350M. Inoltre, la famiglia di modelli MobileLLM mostra significativi miglioramenti rispetto ai precedenti modelli di scala inferiore al miliardo nei benchmark di chat e dimostra una correttezza vicina a LLaMA-v2 7B nelle attività di chiamata API, evidenziando la capacità dei modelli di piccole dimensioni per i comuni casi d'uso su dispositivo.

English

This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for mobile deployment. Contrary to prevailing belief emphasizing the pivotal role of data and parameter quantity in determining model quality, our investigation underscores the significance of model architecture for sub-billion scale LLMs. Leveraging deep and thin architectures, coupled with embedding sharing and grouped-query attention mechanisms, we establish a strong baseline network denoted as MobileLLM, which attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M state-of-the-art models. Additionally, we propose an immediate block-wise weight sharing approach with no increase in model size and only marginal latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover, MobileLLM model family shows significant improvements compared to previous sub-billion models on chat benchmarks, and demonstrates close correctness to LLaMA-v2 7B in API calling tasks, highlighting the capability of small models for common on-device use cases.

MobileLLM: Ottimizzazione di Modelli Linguistici con Meno di un Miliardo di Parametri per Casi d'Uso su Dispositivi Mobili

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Abstract

Support