BlueLM-V-3B:モバイルデバイス向けのマルチモーダル大規模言語モデルのためのアルゴリズムとシステム共同設計
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
November 16, 2024
著者: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)の出現と人気の向上は、コミュニケーションの向上から学習や問題解決の促進まで、日常生活のさまざまな側面を向上させる可能性を秘めています。携帯電話は、必須の日常の仲間として、MLLMsを効果的かつアクセスしやすい展開プラットフォームを提供し、日常のタスクにシームレスに統合することを可能にします。ただし、携帯電話にMLLMsを展開することは、メモリサイズや計算能力の制限による課題があり、広範な最適化なしにスムーズでリアルタイムな処理を実現することが困難です。本論文では、モバイルプラットフォームにおけるMLLMsの効率的な展開に特化したアルゴリズムとシステム共同設計アプローチであるBlueLM-V-3Bを提案します。具体的には、主流のMLLMsで採用されている動的解像度スキームを再設計し、モバイル電話でのモデル推論の最適化のためにハードウェアに配慮した展開を実装します。BlueLM-V-3Bには、以下の主なハイライトがあります:(1)小さなサイズ:BlueLM-V-3Bは、2.7Bのパラメータを持つ言語モデルと400Mのパラメータを持つビジョンエンコーダを特徴としています。 (2)高速:BlueLM-V-3Bは、4ビットのLLMウェイト量子化を使用してMediaTek Dimensity 9300プロセッサ上で24.4トークン/秒の生成速度を達成しています。 (3)高いパフォーマンス:BlueLM-V-3Bは、4B以下のパラメータを持つモデルの中でOpenCompassベンチマークで最高の平均スコア66.1を達成し、MiniCPM-V-2.6、InternVL2-8Bなどのより大きなパラメータサイズを持つ一連のモデルを上回っています。
English
The emergence and growing popularity of multimodal large language models
(MLLMs) have significant potential to enhance various aspects of daily life,
from improving communication to facilitating learning and problem-solving.
Mobile phones, as essential daily companions, represent the most effective and
accessible deployment platform for MLLMs, enabling seamless integration into
everyday tasks. However, deploying MLLMs on mobile phones presents challenges
due to limitations in memory size and computational capability, making it
difficult to achieve smooth and real-time processing without extensive
optimization. In this paper, we present BlueLM-V-3B, an algorithm and system
co-design approach specifically tailored for the efficient deployment of MLLMs
on mobile platforms. To be specific, we redesign the dynamic resolution scheme
adopted by mainstream MLLMs and implement system optimization for
hardware-aware deployment to optimize model inference on mobile phones.
BlueLM-V-3B boasts the following key highlights: (1) Small Size: BlueLM-V-3B
features a language model with 2.7B parameters and a vision encoder with 400M
parameters. (2) Fast Speed: BlueLM-V-3B achieves a generation speed of 24.4
token/s on the MediaTek Dimensity 9300 processor with 4-bit LLM weight
quantization. (3) Strong Performance: BlueLM-V-3B has attained the highest
average score of 66.1 on the OpenCompass benchmark among models with leq 4B
parameters and surpassed a series of models with much larger parameter sizes
(e.g., MiniCPM-V-2.6, InternVL2-8B).Summary
AI-Generated Summary