MobileLLM: Оптимизация языковых моделей с параметрами менее миллиарда для использования на устройствах
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
February 22, 2024
Авторы: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra
cs.AI
Аннотация
В данной статье рассматривается растущая потребность в эффективных больших языковых моделях (LLM) для мобильных устройств, обусловленная увеличением затрат на облачные вычисления и проблемами с задержками. Мы сосредоточились на разработке высококачественных LLM с менее чем миллиардом параметров, что является практичным выбором для развертывания на мобильных устройствах. Вопреки распространенному мнению, подчеркивающему ключевую роль данных и количества параметров в определении качества модели, наше исследование выделяет важность архитектуры модели для LLM с менее чем миллиардом параметров. Используя глубокие и узкие архитектуры в сочетании с механизмами совместного использования эмбеддингов и группового внимания, мы создали базовую сеть под названием MobileLLM, которая демонстрирует впечатляющее увеличение точности на 2,7%/4,3% по сравнению с предыдущими моделями на 125M/350M параметров. Кроме того, мы предлагаем подход к немедленному блочному совместному использованию весов без увеличения размера модели и с минимальными накладными расходами на задержку. Полученные модели, обозначенные как MobileLLM-LS, показывают дальнейшее улучшение точности на 0,7%/0,8% по сравнению с MobileLLM 125M/350M. Более того, семейство моделей MobileLLM демонстрирует значительные улучшения по сравнению с предыдущими моделями с менее чем миллиардом параметров в тестах на чат и показывает близкую к LLaMA-v2 7B точность в задачах вызова API, что подчеркивает возможности небольших моделей для типичных сценариев использования на устройствах.
English
This paper addresses the growing need for efficient large language models
(LLMs) on mobile devices, driven by increasing cloud costs and latency
concerns. We focus on designing top-quality LLMs with fewer than a billion
parameters, a practical choice for mobile deployment. Contrary to prevailing
belief emphasizing the pivotal role of data and parameter quantity in
determining model quality, our investigation underscores the significance of
model architecture for sub-billion scale LLMs. Leveraging deep and thin
architectures, coupled with embedding sharing and grouped-query attention
mechanisms, we establish a strong baseline network denoted as MobileLLM, which
attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M
state-of-the-art models. Additionally, we propose an immediate block-wise
weight sharing approach with no increase in model size and only marginal
latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a
further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover,
MobileLLM model family shows significant improvements compared to previous
sub-billion models on chat benchmarks, and demonstrates close correctness to
LLaMA-v2 7B in API calling tasks, highlighting the capability of small models
for common on-device use cases.