MobiLlama: В направлении точной и легковесной полностью прозрачной GPT

Аннотация

Тенденция "чем больше, тем лучше" доминировала в последних разработках крупных языковых моделей (LLM). Однако LLM плохо подходят для сценариев, требующих обработки на устройстве, энергоэффективности, низкого потребления памяти и быстрого отклика. Эти требования крайне важны для обеспечения конфиденциальности, безопасности и устойчивого развертывания. В данной статье исследуется парадигма "меньше — значит больше", решая задачу проектирования точных, но эффективных малых языковых моделей (SLM) для устройств с ограниченными ресурсами. Наш основной вклад — представление точной и полностью прозрачной SLM с открытым исходным кодом, содержащей 0,5 миллиарда параметров (0,5B), под названием MobiLlama, которая учитывает специфические потребности устройств с ограниченными ресурсами, делая акцент на повышении производительности при снижении требований к ресурсам. MobiLlama — это дизайн SLM, который начинается с более крупной модели и применяет тщательно продуманную схему совместного использования параметров для снижения как стоимости предварительного обучения, так и затрат на развертывание. Наша работа направлена не только на устранение пробела в открытых SLM, но и на обеспечение полной прозрачности: полный конвейер обучающих данных, код обучения, веса модели и более 300 контрольных точек вместе с кодом оценки доступны по адресу: https://github.com/mbzuai-oryx/MobiLlama.

English

"Bigger the better" has been the predominant trend in recent Large Language Models (LLMs) development. However, LLMs do not suit well for scenarios that require on-device processing, energy efficiency, low memory footprint, and response efficiency. These requisites are crucial for privacy, security, and sustainable deployment. This paper explores the "less is more" paradigm by addressing the challenge of designing accurate yet efficient Small Language Models (SLMs) for resource constrained devices. Our primary contribution is the introduction of an accurate and fully transparent open-source 0.5 billion (0.5B) parameter SLM, named MobiLlama, catering to the specific needs of resource-constrained computing with an emphasis on enhanced performance with reduced resource demands. MobiLlama is a SLM design that initiates from a larger model and applies a careful parameter sharing scheme to reduce both the pre-training and the deployment cost. Our work strives to not only bridge the gap in open-source SLMs but also ensures full transparency, where complete training data pipeline, training code, model weights, and over 300 checkpoints along with evaluation codes is available at : https://github.com/mbzuai-oryx/MobiLlama.

MobiLlama: В направлении точной и легковесной полностью прозрачной GPT

MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

Аннотация

Support