MobileLLM:針對設備上使用情境優化的次十億參數語言模型MobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
本文探討了移動設備上高效大型語言模型(LLMs)的日益增長需求,這是由於雲成本和延遲問題不斷增加。我們專注於設計具有不到十億參數的高質量LLMs,這是移動部署的實際選擇。與主流觀點相反,主張數據和參數數量在確定模型質量方面的關鍵作用,我們的研究強調了對於次十億規模LLMs,模型架構的重要性。通過利用深度和窄度結構,結合嵌入共享和分組查詢注意機制,我們建立了一個強大的基準網絡,稱為MobileLLM,比前125M/350M最先進模型實現了顯著的2.7%/4.3%的準確度提升。此外,我們提出了一種立即的塊狀權重共享方法,不增加模型大小,僅有輕微的延遲開銷。結果模型,稱為MobileLLM-LS,展示了比MobileLLM 125M/350M進一步的0.7%/0.8%的準確度提升。此外,MobileLLM模型系列在聊天基準測試中相比以前的次十億模型有顯著改進,並在API調用任務中展示了與LLaMA-v2 7B接近的正確性,突出了小型模型在常見設備使用情況下的能力。