MobileLLM: 온디바이스 사용 사례를 위한 10억 파라미터 미만 언어 모델 최적화MobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
본 논문은 클라우드 비용 증가와 지연 시간 문제로 인해 모바일 기기에서 효율적인 대규모 언어 모델(LLM)의 필요성이 커짐에 따라 이를 다룬다. 우리는 모바일 배포에 실용적인 선택인 10억 개 미만의 매개변수를 가진 고품질 LLM 설계에 초점을 맞춘다. 모델 품질을 결정하는 데 데이터와 매개변수 양의 중요성을 강조하는 일반적인 믿음과는 달리, 우리의 연구는 10억 개 미만 규모의 LLM에서 모델 아키텍처의 중요성을 강조한다. 깊고 얇은 아키텍처와 임베딩 공유 및 그룹화된 쿼리 어텐션 메커니즘을 활용하여, 우리는 MobileLLM으로 명명된 강력한 기준 네트워크를 구축했으며, 이는 기존의 1억 2,500만/3억 5,000만 매개변수를 가진 최신 모델 대비 2.7%/4.3%의 정확도 향상을 달성했다. 또한, 모델 크기 증가 없이 지연 시간 오버헤드가 미미한 즉각적인 블록 단위 가중치 공유 방식을 제안한다. 그 결과로 도출된 MobileLLM-LS 모델은 MobileLLM 1억 2,500만/3억 5,000만 대비 0.7%/0.8%의 추가 정확도 향상을 보여준다. 더욱이, MobileLLM 모델 패밀리는 이전의 10억 개 미만 모델 대비 채팅 벤치마크에서 상당한 개선을 보였으며, API 호출 작업에서 LLaMA-v2 7B에 근접한 정확도를 보여주어, 일반적인 온디바이스 사용 사례에서 소규모 모델의 능력을 입증했다.