MobileLLM: 온디바이스 사용 사례를 위한 10억 파라미터 미만 언어 모델 최적화
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
February 22, 2024
저자: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra
cs.AI
초록
본 논문은 클라우드 비용 증가와 지연 시간 문제로 인해 모바일 기기에서 효율적인 대규모 언어 모델(LLM)의 필요성이 커짐에 따라 이를 다룬다. 우리는 모바일 배포에 실용적인 선택인 10억 개 미만의 매개변수를 가진 고품질 LLM 설계에 초점을 맞춘다. 모델 품질을 결정하는 데 데이터와 매개변수 양의 중요성을 강조하는 일반적인 믿음과는 달리, 우리의 연구는 10억 개 미만 규모의 LLM에서 모델 아키텍처의 중요성을 강조한다. 깊고 얇은 아키텍처와 임베딩 공유 및 그룹화된 쿼리 어텐션 메커니즘을 활용하여, 우리는 MobileLLM으로 명명된 강력한 기준 네트워크를 구축했으며, 이는 기존의 1억 2,500만/3억 5,000만 매개변수를 가진 최신 모델 대비 2.7%/4.3%의 정확도 향상을 달성했다. 또한, 모델 크기 증가 없이 지연 시간 오버헤드가 미미한 즉각적인 블록 단위 가중치 공유 방식을 제안한다. 그 결과로 도출된 MobileLLM-LS 모델은 MobileLLM 1억 2,500만/3억 5,000만 대비 0.7%/0.8%의 추가 정확도 향상을 보여준다. 더욱이, MobileLLM 모델 패밀리는 이전의 10억 개 미만 모델 대비 채팅 벤치마크에서 상당한 개선을 보였으며, API 호출 작업에서 LLaMA-v2 7B에 근접한 정확도를 보여주어, 일반적인 온디바이스 사용 사례에서 소규모 모델의 능력을 입증했다.
English
This paper addresses the growing need for efficient large language models
(LLMs) on mobile devices, driven by increasing cloud costs and latency
concerns. We focus on designing top-quality LLMs with fewer than a billion
parameters, a practical choice for mobile deployment. Contrary to prevailing
belief emphasizing the pivotal role of data and parameter quantity in
determining model quality, our investigation underscores the significance of
model architecture for sub-billion scale LLMs. Leveraging deep and thin
architectures, coupled with embedding sharing and grouped-query attention
mechanisms, we establish a strong baseline network denoted as MobileLLM, which
attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M
state-of-the-art models. Additionally, we propose an immediate block-wise
weight sharing approach with no increase in model size and only marginal
latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a
further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover,
MobileLLM model family shows significant improvements compared to previous
sub-billion models on chat benchmarks, and demonstrates close correctness to
LLaMA-v2 7B in API calling tasks, highlighting the capability of small models
for common on-device use cases.