MobileLLM: Оптимизация языковых моделей с параметрами менее миллиарда для использования на устройствахMobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
В данной статье рассматривается растущая потребность в эффективных больших языковых моделях (LLM) для мобильных устройств, обусловленная увеличением затрат на облачные вычисления и проблемами с задержками. Мы сосредоточились на разработке высококачественных LLM с менее чем миллиардом параметров, что является практичным выбором для развертывания на мобильных устройствах. Вопреки распространенному мнению, подчеркивающему ключевую роль данных и количества параметров в определении качества модели, наше исследование выделяет важность архитектуры модели для LLM с менее чем миллиардом параметров. Используя глубокие и узкие архитектуры в сочетании с механизмами совместного использования эмбеддингов и группового внимания, мы создали базовую сеть под названием MobileLLM, которая демонстрирует впечатляющее увеличение точности на 2,7%/4,3% по сравнению с предыдущими моделями на 125M/350M параметров. Кроме того, мы предлагаем подход к немедленному блочному совместному использованию весов без увеличения размера модели и с минимальными накладными расходами на задержку. Полученные модели, обозначенные как MobileLLM-LS, показывают дальнейшее улучшение точности на 0,7%/0,8% по сравнению с MobileLLM 125M/350M. Более того, семейство моделей MobileLLM демонстрирует значительные улучшения по сравнению с предыдущими моделями с менее чем миллиардом параметров в тестах на чат и показывает близкую к LLaMA-v2 7B точность в задачах вызова API, что подчеркивает возможности небольших моделей для типичных сценариев использования на устройствах.