Imp: モバイルデバイス向けの高性能大規模マルチモーダルモデル
Imp: Highly Capable Large Multimodal Models for Mobile Devices
May 20, 2024
著者: Zhenwei Shao, Zhou Yu, Jun Yu, Xuecheng Ouyang, Lihao Zheng, Zhenbiao Gai, Mingyang Wang, Jiajun Ding
cs.AI
要旨
大規模言語モデル(LLM)の能力を活用することで、最近の大規模マルチモーダルモデル(LMM)はオープンワールドにおけるマルチモーダル理解において顕著な汎用性を示しています。しかし、これらのモデルは通常パラメータが多く計算集約的であるため、リソースが制約されたシナリオでの適用が妨げられています。この問題に対処するため、いくつかの軽量なLMMが相次いで提案され、制約された規模(例:3B)での能力を最大化しようとしています。これらの手法が達成した有望な結果にもかかわらず、そのほとんどは設計空間の1つまたは2つの側面にのみ焦点を当てており、モデルの能力に影響を与える重要な設計選択がまだ徹底的に調査されていません。本論文では、モデルアーキテクチャ、トレーニング戦略、およびトレーニングデータの観点から、軽量LMMの体系的な研究を行います。私たちの調査結果に基づいて、2B-4Bスケールで高い能力を持つLMMファミリーであるImpを開発しました。特に、私たちのImp-3Bモデルは、同規模の既存の軽量LMMを一貫して上回り、13Bスケールの最先端LMMをも凌駕します。低ビット量子化と解像度低減技術を適用することで、ImpモデルはQualcomm Snapdragon 8Gen3モバイルチップ上に展開可能で、約13トークン/秒の高い推論速度を実現します。
English
By harnessing the capabilities of large language models (LLMs), recent large
multimodal models (LMMs) have shown remarkable versatility in open-world
multimodal understanding. Nevertheless, they are usually parameter-heavy and
computation-intensive, thus hindering their applicability in
resource-constrained scenarios. To this end, several lightweight LMMs have been
proposed successively to maximize the capabilities under constrained scale
(e.g., 3B). Despite the encouraging results achieved by these methods, most of
them only focus on one or two aspects of the design space, and the key design
choices that influence model capability have not yet been thoroughly
investigated. In this paper, we conduct a systematic study for lightweight LMMs
from the aspects of model architecture, training strategy, and training data.
Based on our findings, we obtain Imp -- a family of highly capable LMMs at the
2B-4B scales. Notably, our Imp-3B model steadily outperforms all the existing
lightweight LMMs of similar size, and even surpasses the state-of-the-art LMMs
at the 13B scale. With low-bit quantization and resolution reduction
techniques, our Imp model can be deployed on a Qualcomm Snapdragon 8Gen3 mobile
chip with a high inference speed of about 13 tokens/s.Summary
AI-Generated Summary