MobiLlama: В направлении точной и легковесной полностью прозрачной GPT
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT
February 26, 2024
Авторы: Omkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan
cs.AI
Аннотация
Тенденция "чем больше, тем лучше" доминировала в последних разработках крупных языковых моделей (LLM). Однако LLM плохо подходят для сценариев, требующих обработки на устройстве, энергоэффективности, низкого потребления памяти и быстрого отклика. Эти требования крайне важны для обеспечения конфиденциальности, безопасности и устойчивого развертывания. В данной статье исследуется парадигма "меньше — значит больше", решая задачу проектирования точных, но эффективных малых языковых моделей (SLM) для устройств с ограниченными ресурсами. Наш основной вклад — представление точной и полностью прозрачной SLM с открытым исходным кодом, содержащей 0,5 миллиарда параметров (0,5B), под названием MobiLlama, которая учитывает специфические потребности устройств с ограниченными ресурсами, делая акцент на повышении производительности при снижении требований к ресурсам. MobiLlama — это дизайн SLM, который начинается с более крупной модели и применяет тщательно продуманную схему совместного использования параметров для снижения как стоимости предварительного обучения, так и затрат на развертывание. Наша работа направлена не только на устранение пробела в открытых SLM, но и на обеспечение полной прозрачности: полный конвейер обучающих данных, код обучения, веса модели и более 300 контрольных точек вместе с кодом оценки доступны по адресу: https://github.com/mbzuai-oryx/MobiLlama.
English
"Bigger the better" has been the predominant trend in recent Large Language
Models (LLMs) development. However, LLMs do not suit well for scenarios that
require on-device processing, energy efficiency, low memory footprint, and
response efficiency. These requisites are crucial for privacy, security, and
sustainable deployment. This paper explores the "less is more" paradigm by
addressing the challenge of designing accurate yet efficient Small Language
Models (SLMs) for resource constrained devices. Our primary contribution is the
introduction of an accurate and fully transparent open-source 0.5 billion
(0.5B) parameter SLM, named MobiLlama, catering to the specific needs of
resource-constrained computing with an emphasis on enhanced performance with
reduced resource demands. MobiLlama is a SLM design that initiates from a
larger model and applies a careful parameter sharing scheme to reduce both the
pre-training and the deployment cost. Our work strives to not only bridge the
gap in open-source SLMs but also ensures full transparency, where complete
training data pipeline, training code, model weights, and over 300 checkpoints
along with evaluation codes is available at :
https://github.com/mbzuai-oryx/MobiLlama.